williamFalcon · July 29, 2019 17:46
diff --git a/9t_3.py b/9t_3.py
 # clear last step
 optimizer.zero_grad()

 # 16 accumulated gradient steps
 scaled_loss = 0
 for accumulated_step_i in range(16):
     out = model.forward()
     loss = some_loss(out,y)    
     loss.backward()
      scaled_loss += loss.item()
      
 # update weights after 8 steps. effective batch = 8*16
 optimizer.step()

 # loss is now scaled up by the number of accumulated batches
 actual_loss = scaled_loss / 16
	# clear last step
	optimizer.zero_grad()

	# 16 accumulated gradient steps
	scaled_loss = 0
	for accumulated_step_i in range(16):
	out = model.forward()
	loss = some_loss(out,y)
	loss.backward()
	scaled_loss += loss.item()

	# update weights after 8 steps. effective batch = 8*16
	optimizer.step()

	# loss is now scaled up by the number of accumulated batches
	actual_loss = scaled_loss / 16