Guitaricet · August 8, 2019 09:26
diff --git a/eval_mujoco.py b/eval_mujoco.py
 def evaluate(env, policy, n_games=1):
    """Plays an entire game start to end, returns session rewards."""

    game_rewards = []
    for _ in range(n_games):
        # initial observation and memory
        observation = env.reset()

        total_reward = 0
        for step in range(int(1e6)):
            res = policy.act(observation, training=False)
            action = res['actions']

            observation, reward, done, info = env.step(action)

            total_reward += reward
            if done:
                break
        else:
            print('Very long eposode!')

        game_rewards.append(total_reward)
    return game_rewards
	def evaluate(env, policy, n_games=1):
	"""Plays an entire game start to end, returns session rewards."""

	game_rewards = []
	for _ in range(n_games):
	# initial observation and memory
	observation = env.reset()

	total_reward = 0
	for step in range(int(1e6)):
	res = policy.act(observation, training=False)
	action = res['actions']

	observation, reward, done, info = env.step(action)

	total_reward += reward
	if done:
	break
	else:
	print('Very long eposode!')

	game_rewards.append(total_reward)
	return game_rewards