rayheberer · August 17, 2018 00:29
diff --git a/rewards.py b/rewards.py
 class A2CAtari(base_agent.BaseAgent):
    # ...
    # ...
    def _get_batch(self, terminal):
        # ...
        # ...
        # calculate discounted rewards
        raw_rewards = list(self.reward_buffer)
        if terminal:
            value = 0
        else:
            value = np.squeeze(self.sess.run(
                self.network.value_estimate,
                feed_dict={self.network.screen_features: screen[-1:],
                           self.network.minimap_features: minimap[-1:],
                           self.network.flat_features: flat[-1:]}))

        returns = []
        # n-step discounted rewards from 1 < n < trajectory_training_steps
        for i, reward in enumerate(raw_rewards):
            value = reward + self.discount_factor * value
            returns.append(value)
        # ...
        # ...
	class A2CAtari(base_agent.BaseAgent):
	# ...
	# ...
	def _get_batch(self, terminal):
	# ...
	# ...
	# calculate discounted rewards
	raw_rewards = list(self.reward_buffer)
	if terminal:
	value = 0
	else:
	value = np.squeeze(self.sess.run(
	self.network.value_estimate,
	feed_dict={self.network.screen_features: screen[-1:],
	self.network.minimap_features: minimap[-1:],
	self.network.flat_features: flat[-1:]}))

	returns = []
	# n-step discounted rewards from 1 < n < trajectory_training_steps
	for i, reward in enumerate(raw_rewards):
	value = reward + self.discount_factor * value
	returns.append(value)
	# ...
	# ...