cjratcliff · November 28, 2022 01:05
diff --git a/adam.py b/adam.py
 import tensorflow as tf

 class AdamOptimizer(tf.train.Optimizer):
 	def __init__(self, alpha=0.001, 
 						beta1=0.9, 
 						beta2=0.999,
 						epsilon=1e-8):
 		
 		self.alpha = alpha
 		self.beta1 = beta1
 		self.beta2 = beta2
 		self.epsilon = epsilon
 		
 		self.m = {}
 		self.u = {}
 		self.t = tf.Variable(0.0, trainable=False)
 		
 		for v in tf.trainable_variables():
 			self.m[v] = tf.Variable(tf.zeros(tf.shape(v.initial_value)), trainable=False)
 			self.u[v] = tf.Variable(tf.zeros(tf.shape(v.initial_value)), trainable=False)


 	def apply_gradients(self,gvs):
 		t = self.t.assign_add(1.0)

 		update_ops = []
 		for (g,v) in gvs:
 			m = self.m[v].assign(self.beta1*self.m[v] + (1-self.beta1)*g)
 			u = self.u[v].assign(self.beta2*self.u[v] + (1-self.beta2)*g*g)
 			m_hat = m/(1-tf.pow(self.beta1,t))
 			u_hat = u/(1-tf.pow(self.beta2,t))
 			
 			update = -self.alpha*m_hat/(tf.sqrt(u_hat) + self.epsilon)
 			update_ops.append(v.assign_add(update))
 			
 		return tf.group(*update_ops)
	import tensorflow as tf

	class AdamOptimizer(tf.train.Optimizer):
	def __init__(self, alpha=0.001,
	beta1=0.9,
	beta2=0.999,
	epsilon=1e-8):

	self.alpha = alpha
	self.beta1 = beta1
	self.beta2 = beta2
	self.epsilon = epsilon

	self.m = {}
	self.u = {}
	self.t = tf.Variable(0.0, trainable=False)

	for v in tf.trainable_variables():
	self.m[v] = tf.Variable(tf.zeros(tf.shape(v.initial_value)), trainable=False)
	self.u[v] = tf.Variable(tf.zeros(tf.shape(v.initial_value)), trainable=False)


	def apply_gradients(self,gvs):
	t = self.t.assign_add(1.0)

	update_ops = []
	for (g,v) in gvs:
	m = self.m[v].assign(self.beta1self.m[v] + (1-self.beta1)g)
	u = self.u[v].assign(self.beta2self.u[v] + (1-self.beta2)g*g)
	m_hat = m/(1-tf.pow(self.beta1,t))
	u_hat = u/(1-tf.pow(self.beta2,t))

	update = -self.alpha*m_hat/(tf.sqrt(u_hat) + self.epsilon)
	update_ops.append(v.assign_add(update))

	return tf.group(*update_ops)