wiso · January 20, 2017 23:51
diff --git a/CartPole-v0.py b/CartPole-v0.py
 # from http://kvfrans.com/simple-algoritms-for-solving-cartpole/

 import gym
 from gym import wrappers
 import numpy as np

 env = gym.make('CartPole-v0')

 def run_episode(env, parameters):  
    observation = env.reset()
    totalreward = 0
    for _ in xrange(2000):
        action = 0 if np.matmul(parameters,observation) < 0 else 1
        observation, reward, done, info = env.step(action)
        totalreward += reward
        if done:
            break
    return totalreward
  
 parameters = np.random.rand(4) * 2 - 1  
 bestparams = None  
 bestreward = 0  
 episodes_per_update = 5
 for _ in xrange(10000):  
    parameters = np.random.rand(4) * 2 - 1
    reward = 0
    for _ in xrange(episodes_per_update):  
        run = run_episode(env,parameters)
        reward += run / episodes_per_update
    if reward > bestreward:
        bestreward = reward
        bestparams = parameters

        if reward >= 2000:
            break
 print bestreward

 env = gym.make('CartPole-v0')
 env = wrappers.Monitor(env, '/tmp/cartpole-experiment-1', force=True)
 for i_episode in range(100):
    print i_episode
    observation = env.reset()
    for _ in xrange(1000):
        #env.render()
        action = 0 if np.matmul(parameters, observation) < 0 else 1
        observation, reward, done, info = env.step(action)
        if done:
            break
 env.close()
	# from http://kvfrans.com/simple-algoritms-for-solving-cartpole/

	import gym
	from gym import wrappers
	import numpy as np

	env = gym.make('CartPole-v0')

	def run_episode(env, parameters):
	observation = env.reset()
	totalreward = 0
	for _ in xrange(2000):
	action = 0 if np.matmul(parameters,observation) < 0 else 1
	observation, reward, done, info = env.step(action)
	totalreward += reward
	if done:
	break
	return totalreward

	parameters = np.random.rand(4) * 2 - 1
	bestparams = None
	bestreward = 0
	episodes_per_update = 5
	for _ in xrange(10000):
	parameters = np.random.rand(4) * 2 - 1
	reward = 0
	for _ in xrange(episodes_per_update):
	run = run_episode(env,parameters)
	reward += run / episodes_per_update
	if reward > bestreward:
	bestreward = reward
	bestparams = parameters

	if reward >= 2000:
	break
	print bestreward

	env = gym.make('CartPole-v0')
	env = wrappers.Monitor(env, '/tmp/cartpole-experiment-1', force=True)
	for i_episode in range(100):
	print i_episode
	observation = env.reset()
	for _ in xrange(1000):
	#env.render()
	action = 0 if np.matmul(parameters, observation) < 0 else 1
	observation, reward, done, info = env.step(action)
	if done:
	break
	env.close()