kristijanbartol · May 3, 2018 15:19
diff --git a/simple_custom_gradient.py b/simple_custom_gradient.py
 import tensorflow as tf
 from tensorflow.python.framework import ops
 import numpy as np
 import time

 ZERO_TOL = 1e-8
 LOSS_TOL = 1e-3
 SAMPLES = 100
 EPOCHS = 100000

 train_input = np.random.rand(SAMPLES)
 train_label = 3 * train_input


 class MyException(Exception):
    pass


 def _my_linear_grad(op, grad):
    # second value is not used - it can be multiplied by zero with no side effects
    return grad * op.inputs[1], grad * 0.


 def my_linear(a, x):
    return (a * x).astype(np.float32)


 learning_rate = 1e-3
 beta1 = 0.9999

 x = tf.placeholder(dtype=tf.float32, shape=(), name='x')
 y = tf.placeholder(dtype=tf.float32, shape=(), name='y')

 a = tf.get_variable('a', dtype=tf.float32, initializer=1.)
 tf_a = tf.get_variable('tf_a', dtype=tf.float32, initializer=1.)

 with ops.op_scope([a, x], name="MyLinear") as name:
    # custom gradient op name shouldn't conflict with any other TF op name
    unique_name = 'PyFuncGrad@Unique'
    # using tf.RegisterGradient to set _my_linear_grad function in backward pass for gradient op named rnd_name
    tf.RegisterGradient(unique_name)(_my_linear_grad)

    g = tf.get_default_graph()

    # context manager used to override gradients for nodes created in its block
    with g.gradient_override_map({"PyFunc": unique_name}):
        # my_linear is used for forward pass - my_linear and my_linear_grad are wrapped inside a single TF node
        p = tf.py_func(my_linear, [a, x], [tf.float32], stateful=True, name=name)

 tf_p = tf_a * x

 loss = tf.reduce_mean(tf.square(p - y))
 tf_loss = tf.reduce_mean(tf.square(tf_p - y))

 train_vars = [var for var in tf.trainable_variables()]
 optim = tf.train.AdamOptimizer(learning_rate, beta1)

 # compute_gradients returns a list so I can just concatenate them to calculate tf_loss, too
 grads_and_vars = optim.compute_gradients(loss, var_list=train_vars)
 grads_and_vars += optim.compute_gradients(tf_loss, var_list=train_vars)
 train_op = optim.apply_gradients(grads_and_vars)

 tf.summary.scalar('loss', loss)

 with tf.Session() as sess:
    train_writer = tf.summary.FileWriter('board', sess.graph)
    merge = tf.summary.merge_all()

    sess.run(tf.global_variables_initializer())

    try:
        for epoch in range(EPOCHS):
            overall_loss = 0.
            # update using each sample separately
            for i in range(SAMPLES):
                result = sess.run([loss, tf_loss, a, tf_a, merge, train_op], feed_dict={
                    x: train_input[i],
                    y: train_label[i]
                })

                if np.abs(result[0] - result[1]) > ZERO_TOL:
                    print('Invalid update!\nExpected: {}, Actual: {}'.format(result[1], result[0]))
                    raise MyException

                print('epoch: {}, iter: {}, loss: {}\na: {}\n'.format(epoch, i, result[0], result[2]))
                overall_loss += result[0]

            overall_loss /= float(SAMPLES)
            print('overall_loss: {}'.format(overall_loss))
            #time.sleep(2.0)

            # [NOTE] this moment will be delayed a bit as it has to "wait" for the epoch to finish
            if overall_loss < LOSS_TOL:
                print('Found parameter!\n---------------\n')
                break

    except MyException:
        pass
	import tensorflow as tf
	from tensorflow.python.framework import ops
	import numpy as np
	import time

	ZERO_TOL = 1e-8
	LOSS_TOL = 1e-3
	SAMPLES = 100
	EPOCHS = 100000

	train_input = np.random.rand(SAMPLES)
	train_label = 3 * train_input


	class MyException(Exception):
	pass


	def _my_linear_grad(op, grad):
	# second value is not used - it can be multiplied by zero with no side effects
	return grad * op.inputs[1], grad * 0.


	def my_linear(a, x):
	return (a * x).astype(np.float32)


	learning_rate = 1e-3
	beta1 = 0.9999

	x = tf.placeholder(dtype=tf.float32, shape=(), name='x')
	y = tf.placeholder(dtype=tf.float32, shape=(), name='y')

	a = tf.get_variable('a', dtype=tf.float32, initializer=1.)
	tf_a = tf.get_variable('tf_a', dtype=tf.float32, initializer=1.)

	with ops.op_scope([a, x], name="MyLinear") as name:
	# custom gradient op name shouldn't conflict with any other TF op name
	unique_name = 'PyFuncGrad@Unique'
	# using tf.RegisterGradient to set _my_linear_grad function in backward pass for gradient op named rnd_name
	tf.RegisterGradient(unique_name)(_my_linear_grad)

	g = tf.get_default_graph()

	# context manager used to override gradients for nodes created in its block
	with g.gradient_override_map({"PyFunc": unique_name}):
	# my_linear is used for forward pass - my_linear and my_linear_grad are wrapped inside a single TF node
	p = tf.py_func(my_linear, [a, x], [tf.float32], stateful=True, name=name)

	tf_p = tf_a * x

	loss = tf.reduce_mean(tf.square(p - y))
	tf_loss = tf.reduce_mean(tf.square(tf_p - y))

	train_vars = [var for var in tf.trainable_variables()]
	optim = tf.train.AdamOptimizer(learning_rate, beta1)

	# compute_gradients returns a list so I can just concatenate them to calculate tf_loss, too
	grads_and_vars = optim.compute_gradients(loss, var_list=train_vars)
	grads_and_vars += optim.compute_gradients(tf_loss, var_list=train_vars)
	train_op = optim.apply_gradients(grads_and_vars)

	tf.summary.scalar('loss', loss)

	with tf.Session() as sess:
	train_writer = tf.summary.FileWriter('board', sess.graph)
	merge = tf.summary.merge_all()

	sess.run(tf.global_variables_initializer())

	try:
	for epoch in range(EPOCHS):
	overall_loss = 0.
	# update using each sample separately
	for i in range(SAMPLES):
	result = sess.run([loss, tf_loss, a, tf_a, merge, train_op], feed_dict={
	x: train_input[i],
	y: train_label[i]
	})

	if np.abs(result[0] - result[1]) > ZERO_TOL:
	print('Invalid update!\nExpected: {}, Actual: {}'.format(result[1], result[0]))
	raise MyException

	print('epoch: {}, iter: {}, loss: {}\na: {}\n'.format(epoch, i, result[0], result[2]))
	overall_loss += result[0]

	overall_loss /= float(SAMPLES)
	print('overall_loss: {}'.format(overall_loss))
	#time.sleep(2.0)

	# [NOTE] this moment will be delayed a bit as it has to "wait" for the epoch to finish
	if overall_loss < LOSS_TOL:
	print('Found parameter!\n---------------\n')
	break

	except MyException:
	pass