BarclayII · November 1, 2017 03:59
diff --git a/reinforce.py b/reinforce.py
 import torch as T
 import numpy as np
 x = T.autograd.Variable(T.randn(5, 8), requires_grad=True)
 p = T.nn.functional.softmax(x)
 y = p.multinomial()
 y.reinforce(T.ones(y.size()))
 y.backward()
 d = x.grad.data.clone().numpy()
 x.grad.data.zero_()
 logp = T.nn.functional.log_softmax(x)
 logp_selected = logp.gather(1, T.autograd.Variable(y.data))
 logp_selected.backward(-T.ones(y.size()))   # notice the minus
 d2 = x.grad.data.clone().numpy()

 assert np.all(np.abs(d - d2) < 1e-3)
	import torch as T
	import numpy as np
	x = T.autograd.Variable(T.randn(5, 8), requires_grad=True)
	p = T.nn.functional.softmax(x)
	y = p.multinomial()
	y.reinforce(T.ones(y.size()))
	y.backward()
	d = x.grad.data.clone().numpy()
	x.grad.data.zero_()
	logp = T.nn.functional.log_softmax(x)
	logp_selected = logp.gather(1, T.autograd.Variable(y.data))
	logp_selected.backward(-T.ones(y.size())) # notice the minus
	d2 = x.grad.data.clone().numpy()

	assert np.all(np.abs(d - d2) < 1e-3)
No results found