elumixor · May 25, 2020 12:29
diff --git a/TRPO_estimate_advantages.py b/TRPO_estimate_advantages.py
 def estimate_advantages(states, last_state, rewards):
    values = critic(states)
    last_value = critic(last_state.unsqueeze(0))
    
    next_values = torch.zeros_like(rewards)
    for i in reversed(range(rewards.shape[0])):
        last_value = next_values[i] = rewards[i] + 0.99 * last_value
        
    advantages = next_values - values
    return advantages
	def estimate_advantages(states, last_state, rewards):
	values = critic(states)
	last_value = critic(last_state.unsqueeze(0))

	next_values = torch.zeros_like(rewards)
	for i in reversed(range(rewards.shape[0])):
	last_value = next_values[i] = rewards[i] + 0.99 * last_value

	advantages = next_values - values
	return advantages