icyblade · January 9, 2017 08:00 · MartinThoma · Nov 24, 2017
diff --git a/frozenlake-v0.py b/frozenlake-v0.py
 #! coding: utf8
 import os

 import gym
 import numpy as np
 from gym import wrappers

 env = gym.make('FrozenLake-v0')
 os.system('rm -rf /tmp/frozenlake_v0_q_table')
 env = wrappers.Monitor(env, '/tmp/frozenlake_v0_q_table')
 nb_epoch = 10000

 Q = np.zeros([
    env.observation_space.n,
    env.action_space.n
 ])  # zero initialization
 lr = 0.7  # learning rate
 gamma = 0.99  # discount
 rewards = []
 for epoch in xrange(nb_epoch):
    observation_previous = env.reset()
    r = 0
    while True:
        action = np.argmax(
            Q[observation_previous, :] +
            np.random.randn(1, env.action_space.n)*(1.0/(epoch+1))
        )
        observation, reward, done, info = env.step(action)

        gradient = (
            reward + gamma*np.max(Q[observation, :]) -
            Q[observation_previous, action]
        )
        Q[observation_previous, action] += lr*gradient

        r += reward
        observation_previous = observation
        if done:
            env.close()
            break
    rewards.append(r)

 print(np.mean(rewards))
	#! coding: utf8
	import os

	import gym
	import numpy as np
	from gym import wrappers

	env = gym.make('FrozenLake-v0')
	os.system('rm -rf /tmp/frozenlake_v0_q_table')
	env = wrappers.Monitor(env, '/tmp/frozenlake_v0_q_table')
	nb_epoch = 10000

	Q = np.zeros([
	env.observation_space.n,
	env.action_space.n
	]) # zero initialization
	lr = 0.7 # learning rate
	gamma = 0.99 # discount
	rewards = []
	for epoch in xrange(nb_epoch):
	observation_previous = env.reset()
	r = 0
	while True:
	action = np.argmax(
	Q[observation_previous, :] +
	np.random.randn(1, env.action_space.n)*(1.0/(epoch+1))
	)
	observation, reward, done, info = env.step(action)

	gradient = (
	reward + gamma*np.max(Q[observation, :]) -
	Q[observation_previous, action]
	)
	Q[observation_previous, action] += lr*gradient

	r += reward
	observation_previous = observation
	if done:
	env.close()
	break
	rewards.append(r)

	print(np.mean(rewards))