elumixor · May 24, 2020 23:15
diff --git a/TRPO_criterion.py b/TRPO_criterion.py
    def criterion(step):
        # Apply parameters' update
        apply_update(step)

        with torch.no_grad():
            distribution_new = actor(states)
            distribution_new = torch.distributions.utils.clamp_probs(distribution_new)
            probabilities_new = distribution_new[range(distribution_new.shape[0]), actions]

            L_new = surrogate_loss(probabilities_new, probabilities, advantages)
            KL_new = kl_div(distribution, distribution_new)

        L_improvement = L_new - L
        if L_improvement > 0 and KL_new <= delta:
            return True

        # Step size too big, reverse
        apply_update(-step)
        return False
	def criterion(step):
	# Apply parameters' update
	apply_update(step)

	with torch.no_grad():
	distribution_new = actor(states)
	distribution_new = torch.distributions.utils.clamp_probs(distribution_new)
	probabilities_new = distribution_new[range(distribution_new.shape[0]), actions]

	L_new = surrogate_loss(probabilities_new, probabilities, advantages)
	KL_new = kl_div(distribution, distribution_new)

	L_improvement = L_new - L
	if L_improvement > 0 and KL_new <= delta:
	return True

	# Step size too big, reverse
	apply_update(-step)
	return False