JKCooper2 · May 1, 2016 04:18 · wojzaremba · May 1, 2016 · JKCooper2 · May 2, 2016
diff --git a/README b/README
 Solved version of problem to determine minimum knowledge required by agent to successfully complete task
 Observation values may be off as I threw this together pretty quick just as a proof of concept
diff --git a/CartPole-v0.py b/CartPole-v0.py
 import logging
 import gym
 from Solved import SolvedAgent


 def main():
    logger = logging.getLogger()
    logger.setLevel(logging.DEBUG)

    env = gym.make('CartPole-v0')
    agent = SolvedAgent()

    outdir = '/tmp/' + agent.name + '-results'
    env.monitor.start(outdir, force=True)

    episode_count = 200
    max_steps = 200
    reward = 0
    done = False

    for i in xrange(episode_count):
        ob = env.reset()

        for j in xrange(max_steps):
            action = agent.act(ob, reward, done)
            ob, reward, done, _ = env.step(action)
            if done:
                break

    env.monitor.close()

 if __name__ == '__main__':
    main()
diff --git a/Solved.py b/Solved.py
 class SolvedAgent(object):
    def __init__(self):
        self.name = 'solved'

    def act(self, observation, reward, done):

        # Guesses at observations are:
        # observation[0] = pole speed
        # observation[1] = pole top pos
        # observation[2] = pole angle
        # observation[3] = block speed

        if (observation[2] > 0 and observation[3] > -1) or observation[3] > 1:
            return 1

        return 0
	Solved version of problem to determine minimum knowledge required by agent to successfully complete task
	Observation values may be off as I threw this together pretty quick just as a proof of concept
	import logging
	import gym
	from Solved import SolvedAgent


	def main():
	logger = logging.getLogger()
	logger.setLevel(logging.DEBUG)

	env = gym.make('CartPole-v0')
	agent = SolvedAgent()

	outdir = '/tmp/' + agent.name + '-results'
	env.monitor.start(outdir, force=True)

	episode_count = 200
	max_steps = 200
	reward = 0
	done = False

	for i in xrange(episode_count):
	ob = env.reset()

	for j in xrange(max_steps):
	action = agent.act(ob, reward, done)
	ob, reward, done, _ = env.step(action)
	if done:
	break

	env.monitor.close()

	if __name__ == '__main__':
	main()
	class SolvedAgent(object):
	def __init__(self):
	self.name = 'solved'

	def act(self, observation, reward, done):

	# Guesses at observations are:
	# observation[0] = pole speed
	# observation[1] = pole top pos
	# observation[2] = pole angle
	# observation[3] = block speed

	if (observation[2] > 0 and observation[3] > -1) or observation[3] > 1:
	return 1

	return 0