giuseppebonaccorso · May 20, 2017 15:00 · michael20at · Jan 16, 2018
diff --git a/readme.txt b/readme.txt
 Number of samples = 100000
 Symbols = Integer relative numbers bounded between (0, 100), Arithmetic operations, Brackets, Empty space (for padding)
 Keras backend = Theano 0.9.0
 Training hardware = Core i7, GeForce 960, 32 GB Ram
 Training time = 5.4 hours / 5 epochs

 Test results (as expected there are many errors due to the size of the training dataset):
 -50/-68 = 0
 (-96*85) = -7820
 -(-17--82) = -63
 -16*5 = -74
 48*-60 = -2840
 (66+-19) = 43
 69+41 = 116
 (-16-26) = -44
 17/-11 = -2
 -20-11 = -33
 5+60 = 63
 -(-81+62) = 29
 (-60/-89) = 0
 (45+21) = 62
 -(91-39) = -44
 -68*-12 = 778
 (-92+-7) = -97
 -(35*-91) = 3175
 -(13+-89) = 70
 -(-5/-38) = 0
 -(83+54) = -145
 -61-44 = -107
 65*-82 = -5470
 -(-99/-64) = -2
 (-88--78) = -1
 -12*-94 = 904
 -22*5 = -120
 -91*-69 = 6227
 -40/90 = -1
 68/-83 = -1
 -40+-89 = -137
 -62--14 = -44
 -87--72 = -17
 (82*-35) = -3870
 (-71*65) = -4085
 (-51-66) = -117
 -(18/-79) = 1
 (-23*46) = -1162
 -6*98 = -578
 -(-32/-5) = -7
 -18*-4 = 72
 98/19 = 5
 -5-68 = -61
 -(99--13) = 110
 (99--6) = 117
 -(65/-91) = 1
 -29/99 = -1
 -13/-64 = 0
 39/-1 = 47
 -(-11*-13) = -17
 (-51-26) = -77
 -89-15 = -104
 -(-81+9) = 62
 -44/-46 = 1
 (-51+96) = 43
 88--42 = 138
 -82*-43 = 3774
 -85+56 = -23
 (2/-16) = -1
 -88+28 = -64
 -(42+72) = -118
 (7+-48) = -43
 (78--41) = 127
 24--35 = 53
 (-4--99) = 97
 (-32/-89) = 0
 -62-84 = -148
 78+90 = 174
 (-76-83) = -157
 (-80--45) = -27
 -95/-21 = 4
 9*56 = 484
 (-25*70) = -1450
 (-36-78) = -116
 -84+-32 = -114
 (-69-70) = -139
 -(58*-53) = 3474
 (4/97) = 0
 -27*-70 = 1870
 -(-8--12) = -12
 (-34--20) = -18
 -48+-75 = -123
 -(-40*42) = 2840
 -81/56 = -2
 -97/24 = -4
 (64/-90) = -1
 -7*-99 = 627
 -46*47 = -2208
 -22*80 = -1440
 26+46 = 68
 (8+50) = 53
 (12+-85) = -77
 (78+-47) = 29
 -(-80*-75) = -5600
 -(-38+-29) = 63
 (-25*-45) = 1155
 (88+60) = 144
 37+-71 = -34
 83+-36 = 43
 (-14*-84) = 114
diff --git a/math_expression_learning.py b/math_expression_learning.py
 '''
 Mathematical expression learning experiment

 Giuseppe Bonaccorso (https://www.bonaccorso.eu)
 Based on: http://machinelearningmastery.com/learn-add-numbers-seq2seq-recurrent-neural-networks/
 '''

 from __future__ import print_function

 from keras.models import Sequential
 from keras.layers import Dense, TimeDistributed, RepeatVector
 from keras.layers.recurrent import LSTM

 from sklearn.preprocessing import LabelBinarizer

 import keras.backend as K
 import numpy as np


 # Set random seed (for reproducibility)
 np.random.seed(1000)

 # Mathematical symbols
 symbols = [' ', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '+', '-', '/', '*', '(', ')']
 operation_offset = 11
 minus_symbol = 12
 open_bracket = 15
 closed_bracket = 16

 # Number of training samples
 nb_samples = 100000

 # Sequence(s) lenght
 input_sequence_length = 340
 output_sequence_length = 340

 # Binarize symbols
 label_binarizer = LabelBinarizer()
 label_binarizer.fit(symbols)

 # Symbol length
 symbol_lenght = len(label_binarizer.transform([symbols[0]])[0])

 # Empty symbol
 empty_symbol = label_binarizer.transform([symbols[0]])[0]

 # Time steps
 time_steps = int(input_sequence_length / symbol_lenght)


 def expression_to_symbols(value):
    s = []

    for digit in str(value):
        s.append(digit)

    return label_binarizer.transform(np.array(s)).flatten()


 def symbols_to_expression(expression):
    syms = ''

    for row in expression:
        syms += label_binarizer.inverse_transform(to_binary(row).reshape((1, symbol_lenght)))[0]

    return syms.strip()


 def operation(op_type, a, b):
    ops = {
        0: a + b,
        1: a - b,
        2: int(a / b),
        3: a * b
    }
    return ops.get(op_type)


 def generate_random_expression():
    # First term
    a = np.random.randint(-100, 100)
    
    # Second term (avoid zero for divisions)
    b = np.random.randint(1, 100)
    if binary_decision():
        b = -b

    # Operator
    op = np.random.randint(0, 4)
    result = operation(op, a, b)

    full_expression = (expression_to_symbols(a),
                       expression_to_symbols(symbols[op + operation_offset]),
                       expression_to_symbols(b))

    if binary_decision():
        # Insert brackets
        open_bracket_expression = (expression_to_symbols(symbols[open_bracket]),)

        if binary_decision():
            # Insert a minus in front of the exception
            open_bracket_expression = (expression_to_symbols(symbols[minus_symbol]),) + open_bracket_expression
            result *= -1

        full_expression = open_bracket_expression + full_expression
        full_expression += (expression_to_symbols(symbols[closed_bracket]),)

    x = pad(np.concatenate(full_expression), input_sequence_length).reshape(time_steps, symbol_lenght)
    r = pad(expression_to_symbols(result), output_sequence_length).reshape(time_steps, symbol_lenght)

    return x, r, result


 def create_dataset(n_samples=5000):
    print('Creating dataset with %d samples' % nb_samples)

    X = []
    Y = []

    for _ in range(n_samples):
        x, r, _ = generate_random_expression()

        X.append(x.astype(K.floatx()))
        Y.append(r.astype(K.floatx()))

    return np.array(X).astype(K.floatx()), np.array(Y).astype(K.floatx())


 def binary_decision():
    return True if np.random.uniform(0, 1) < 0.5 else False


 def pad(x, sequence_length):
    if len(x) < sequence_length:
        n = int((sequence_length - len(x)) / len(empty_symbol))

        for _ in range(n):
            x = np.concatenate((x, empty_symbol))

    return x


 def to_binary(x):
    v = np.argmax(x)
    z = np.zeros(shape=symbol_lenght)
    z[v] = 1.0
    return z


 def make_expression(string_expression):
    s = []

    for digit in string_expression.strip():
        s.append(digit)

    return pad(label_binarizer.transform(np.array(s)).flatten(), input_sequence_length).\
        reshape(1, time_steps, symbol_lenght)


 def create_model():
    model = Sequential()

    model.add(LSTM(250, input_shape=(time_steps, symbol_lenght)))
    model.add(RepeatVector(time_steps))
    model.add(LSTM(100, return_sequences=True))
    model.add(TimeDistributed(Dense(symbol_lenght, activation='softmax')))

    # Compile model
    model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

    return model


 if __name__ == '__main__':
    print('Expression learning experiment')

    print('Symbol table:')
    for symbol in symbols:
        print(symbol + ' -> ' + str(label_binarizer.transform([symbol])))

    # Create dataset
    print('Training model...')
    X, Y = create_dataset(n_samples=nb_samples)

    # Create model
    model = create_model()

    # Train model
    model.fit(X, Y, batch_size=1, epochs=5)

    # Test
    print('Test:')
    X_test, Y_test = create_dataset(n_samples=100)
    Y_pred = model.predict(X_test)

    for i, y in enumerate(Y_pred):
        print('%s = %s' % (symbols_to_expression(X_test[i]), symbols_to_expression(y)))
	Number of samples = 100000
	Symbols = Integer relative numbers bounded between (0, 100), Arithmetic operations, Brackets, Empty space (for padding)
	Keras backend = Theano 0.9.0
	Training hardware = Core i7, GeForce 960, 32 GB Ram
	Training time = 5.4 hours / 5 epochs

	Test results (as expected there are many errors due to the size of the training dataset):
	-50/-68 = 0
	(-96*85) = -7820
	-(-17--82) = -63
	-16*5 = -74
	48*-60 = -2840
	(66+-19) = 43
	69+41 = 116
	(-16-26) = -44
	17/-11 = -2
	-20-11 = -33
	5+60 = 63
	-(-81+62) = 29
	(-60/-89) = 0
	(45+21) = 62
	-(91-39) = -44
	-68*-12 = 778
	(-92+-7) = -97
	-(35*-91) = 3175
	-(13+-89) = 70
	-(-5/-38) = 0
	-(83+54) = -145
	-61-44 = -107
	65*-82 = -5470
	-(-99/-64) = -2
	(-88--78) = -1
	-12*-94 = 904
	-22*5 = -120
	-91*-69 = 6227
	-40/90 = -1
	68/-83 = -1
	-40+-89 = -137
	-62--14 = -44
	-87--72 = -17
	(82*-35) = -3870
	(-71*65) = -4085
	(-51-66) = -117
	-(18/-79) = 1
	(-23*46) = -1162
	-6*98 = -578
	-(-32/-5) = -7
	-18*-4 = 72
	98/19 = 5
	-5-68 = -61
	-(99--13) = 110
	(99--6) = 117
	-(65/-91) = 1
	-29/99 = -1
	-13/-64 = 0
	39/-1 = 47
	-(-11*-13) = -17
	(-51-26) = -77
	-89-15 = -104
	-(-81+9) = 62
	-44/-46 = 1
	(-51+96) = 43
	88--42 = 138
	-82*-43 = 3774
	-85+56 = -23
	(2/-16) = -1
	-88+28 = -64
	-(42+72) = -118
	(7+-48) = -43
	(78--41) = 127
	24--35 = 53
	(-4--99) = 97
	(-32/-89) = 0
	-62-84 = -148
	78+90 = 174
	(-76-83) = -157
	(-80--45) = -27
	-95/-21 = 4
	9*56 = 484
	(-25*70) = -1450
	(-36-78) = -116
	-84+-32 = -114
	(-69-70) = -139
	-(58*-53) = 3474
	(4/97) = 0
	-27*-70 = 1870
	-(-8--12) = -12
	(-34--20) = -18
	-48+-75 = -123
	-(-40*42) = 2840
	-81/56 = -2
	-97/24 = -4
	(64/-90) = -1
	-7*-99 = 627
	-46*47 = -2208
	-22*80 = -1440
	26+46 = 68
	(8+50) = 53
	(12+-85) = -77
	(78+-47) = 29
	-(-80*-75) = -5600
	-(-38+-29) = 63
	(-25*-45) = 1155
	(88+60) = 144
	37+-71 = -34
	83+-36 = 43
	(-14*-84) = 114
	'''
	Mathematical expression learning experiment

	Giuseppe Bonaccorso (https://www.bonaccorso.eu)
	Based on: http://machinelearningmastery.com/learn-add-numbers-seq2seq-recurrent-neural-networks/
	'''

	from __future__ import print_function

	from keras.models import Sequential
	from keras.layers import Dense, TimeDistributed, RepeatVector
	from keras.layers.recurrent import LSTM

	from sklearn.preprocessing import LabelBinarizer

	import keras.backend as K
	import numpy as np


	# Set random seed (for reproducibility)
	np.random.seed(1000)

	# Mathematical symbols
	symbols = [' ', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '+', '-', '/', '*', '(', ')']
	operation_offset = 11
	minus_symbol = 12
	open_bracket = 15
	closed_bracket = 16

	# Number of training samples
	nb_samples = 100000

	# Sequence(s) lenght
	input_sequence_length = 340
	output_sequence_length = 340

	# Binarize symbols
	label_binarizer = LabelBinarizer()
	label_binarizer.fit(symbols)

	# Symbol length
	symbol_lenght = len(label_binarizer.transform([symbols[0]])[0])

	# Empty symbol
	empty_symbol = label_binarizer.transform([symbols[0]])[0]

	# Time steps
	time_steps = int(input_sequence_length / symbol_lenght)


	def expression_to_symbols(value):
	s = []

	for digit in str(value):
	s.append(digit)

	return label_binarizer.transform(np.array(s)).flatten()


	def symbols_to_expression(expression):
	syms = ''

	for row in expression:
	syms += label_binarizer.inverse_transform(to_binary(row).reshape((1, symbol_lenght)))[0]

	return syms.strip()


	def operation(op_type, a, b):
	ops = {
	0: a + b,
	1: a - b,
	2: int(a / b),
	3: a * b
	}
	return ops.get(op_type)


	def generate_random_expression():
	# First term
	a = np.random.randint(-100, 100)

	# Second term (avoid zero for divisions)
	b = np.random.randint(1, 100)
	if binary_decision():
	b = -b

	# Operator
	op = np.random.randint(0, 4)
	result = operation(op, a, b)

	full_expression = (expression_to_symbols(a),
	expression_to_symbols(symbols[op + operation_offset]),
	expression_to_symbols(b))

	if binary_decision():
	# Insert brackets
	open_bracket_expression = (expression_to_symbols(symbols[open_bracket]),)

	if binary_decision():
	# Insert a minus in front of the exception
	open_bracket_expression = (expression_to_symbols(symbols[minus_symbol]),) + open_bracket_expression
	result *= -1

	full_expression = open_bracket_expression + full_expression
	full_expression += (expression_to_symbols(symbols[closed_bracket]),)

	x = pad(np.concatenate(full_expression), input_sequence_length).reshape(time_steps, symbol_lenght)
	r = pad(expression_to_symbols(result), output_sequence_length).reshape(time_steps, symbol_lenght)

	return x, r, result


	def create_dataset(n_samples=5000):
	print('Creating dataset with %d samples' % nb_samples)

	X = []
	Y = []

	for _ in range(n_samples):
	x, r, _ = generate_random_expression()

	X.append(x.astype(K.floatx()))
	Y.append(r.astype(K.floatx()))

	return np.array(X).astype(K.floatx()), np.array(Y).astype(K.floatx())


	def binary_decision():
	return True if np.random.uniform(0, 1) < 0.5 else False


	def pad(x, sequence_length):
	if len(x) < sequence_length:
	n = int((sequence_length - len(x)) / len(empty_symbol))

	for _ in range(n):
	x = np.concatenate((x, empty_symbol))

	return x


	def to_binary(x):
	v = np.argmax(x)
	z = np.zeros(shape=symbol_lenght)
	z[v] = 1.0
	return z


	def make_expression(string_expression):
	s = []

	for digit in string_expression.strip():
	s.append(digit)

	return pad(label_binarizer.transform(np.array(s)).flatten(), input_sequence_length).\
	reshape(1, time_steps, symbol_lenght)


	def create_model():
	model = Sequential()

	model.add(LSTM(250, input_shape=(time_steps, symbol_lenght)))
	model.add(RepeatVector(time_steps))
	model.add(LSTM(100, return_sequences=True))
	model.add(TimeDistributed(Dense(symbol_lenght, activation='softmax')))

	# Compile model
	model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

	return model


	if __name__ == '__main__':
	print('Expression learning experiment')

	print('Symbol table:')
	for symbol in symbols:
	print(symbol + ' -> ' + str(label_binarizer.transform([symbol])))

	# Create dataset
	print('Training model...')
	X, Y = create_dataset(n_samples=nb_samples)

	# Create model
	model = create_model()

	# Train model
	model.fit(X, Y, batch_size=1, epochs=5)

	# Test
	print('Test:')
	X_test, Y_test = create_dataset(n_samples=100)
	Y_pred = model.predict(X_test)

	for i, y in enumerate(Y_pred):
	print('%s = %s' % (symbols_to_expression(X_test[i]), symbols_to_expression(y)))