ppwwyyxx · April 27, 2019 01:04 · ppwwyyxx · Apr 27, 2019
diff --git a/benchmark.py b/benchmark.py
 """
 Dependencies:

    pip install \
        tabulate ujson msgpack msgpack_numpy numpy pyarrow
 """

 import sys
 from timeit import timeit
 import pickle
 from tabulate import tabulate


 def get_tests(is_numpy):
    tests = [
        # (title, setup, enc_test, dec_test)
        ('msgpack-python', 'import msgpack; import msgpack_numpy as m; m.patch(); src = msgpack.dumps(d)', 'msgpack.dumps(d)', 'msgpack.loads(src)'),
        ('pyarrow', 'import pyarrow as pa; src = pa.serialize(d).to_buffer()', 'pa.serialize(d).to_buffer()', 'pa.deserialize(src)'),
    ]

    for k in range(2, min(pickle.HIGHEST_PROTOCOL, 3) + 1):
        if sys.version_info.major == 3:
            setup_pickle = 'import pickle ; src = pickle.dumps(d, {})'.format(k)
        else:
            setup_pickle = 'import cPickle as pickle; src = pickle.dumps(d, {})'.format(k)
        tests.append(('pickle-protocol{}'.format(k), setup_pickle, 'pickle.dumps(d, {})'.format(k), 'pickle.loads(src)'))

    if not is_numpy:
        tests.extend([
            ('json', 'import json; src = json.dumps(d)', 'json.dumps(d)', 'json.loads(src)'),
            ('ujson', 'import ujson; src = ujson.dumps(d)', 'ujson.dumps(d)', 'ujson.loads(src)')
            ])
    return tests


 def run_tests(tests, data, loops):
    enc_table = []
    dec_table = []

    print("Running tests (%d loops each)" % loops)

    for title, mod, enc, dec in tests:
        mod = data + ' ; ' + mod
        print("Running " + title)

        #print("  [Encode]", enc)
        result = timeit(enc, mod, number=loops)
        enc_table.append([title, result])

        #print("  [Decode]", dec)
        result = timeit(dec, mod, number=loops)
        dec_table.append([title, result])

    enc_table.sort(key=lambda x: x[1])
    enc_table.insert(0, ['Method', 'Seconds'])

    dec_table.sort(key=lambda x: x[1])
    dec_table.insert(0, ['Method', 'Seconds'])

    print("\nEncoding Test (%d loops)" % loops)
    print(tabulate(enc_table, headers="firstrow"))

    print("\nDecoding Test (%d loops)" % loops)
    print(tabulate(dec_table, headers="firstrow"))


 print("Benchmarking plain data ...............")
 plain_data = '''d = {
    'words': """
        Lorem ipsum dolor sit amet, consectetur adipiscing
        elit. Mauris adipiscing adipiscing placerat.
        Vestibulum augue augue,
        pellentesque quis sollicitudin id, adipiscing.
        """ * 100,
    'list': list(range(100)) * 300,
    'dict': dict((str(i),'a') for i in range(5000)),
    'int': 3000,
    'float': 100.123456
 }'''
 run_tests(get_tests(False), plain_data, 1000)

 print("Benchmarking numpy data ...............")
 numpy_data = """
 import numpy as np
 d = {
  "arrays": [np.random.rand(1000, 353) for k in range(10)]
 } """
 run_tests(get_tests(True), numpy_data, 300)
	"""
	Dependencies:

	pip install \
	tabulate ujson msgpack msgpack_numpy numpy pyarrow
	"""

	import sys
	from timeit import timeit
	import pickle
	from tabulate import tabulate


	def get_tests(is_numpy):
	tests = [
	# (title, setup, enc_test, dec_test)
	('msgpack-python', 'import msgpack; import msgpack_numpy as m; m.patch(); src = msgpack.dumps(d)', 'msgpack.dumps(d)', 'msgpack.loads(src)'),
	('pyarrow', 'import pyarrow as pa; src = pa.serialize(d).to_buffer()', 'pa.serialize(d).to_buffer()', 'pa.deserialize(src)'),
	]

	for k in range(2, min(pickle.HIGHEST_PROTOCOL, 3) + 1):
	if sys.version_info.major == 3:
	setup_pickle = 'import pickle ; src = pickle.dumps(d, {})'.format(k)
	else:
	setup_pickle = 'import cPickle as pickle; src = pickle.dumps(d, {})'.format(k)
	tests.append(('pickle-protocol{}'.format(k), setup_pickle, 'pickle.dumps(d, {})'.format(k), 'pickle.loads(src)'))

	if not is_numpy:
	tests.extend([
	('json', 'import json; src = json.dumps(d)', 'json.dumps(d)', 'json.loads(src)'),
	('ujson', 'import ujson; src = ujson.dumps(d)', 'ujson.dumps(d)', 'ujson.loads(src)')
	])
	return tests


	def run_tests(tests, data, loops):
	enc_table = []
	dec_table = []

	print("Running tests (%d loops each)" % loops)

	for title, mod, enc, dec in tests:
	mod = data + ' ; ' + mod
	print("Running " + title)

	#print(" [Encode]", enc)
	result = timeit(enc, mod, number=loops)
	enc_table.append([title, result])

	#print(" [Decode]", dec)
	result = timeit(dec, mod, number=loops)
	dec_table.append([title, result])

	enc_table.sort(key=lambda x: x[1])
	enc_table.insert(0, ['Method', 'Seconds'])

	dec_table.sort(key=lambda x: x[1])
	dec_table.insert(0, ['Method', 'Seconds'])

	print("\nEncoding Test (%d loops)" % loops)
	print(tabulate(enc_table, headers="firstrow"))

	print("\nDecoding Test (%d loops)" % loops)
	print(tabulate(dec_table, headers="firstrow"))


	print("Benchmarking plain data ...............")
	plain_data = '''d = {
	'words': """
	Lorem ipsum dolor sit amet, consectetur adipiscing
	elit. Mauris adipiscing adipiscing placerat.
	Vestibulum augue augue,
	pellentesque quis sollicitudin id, adipiscing.
	""" * 100,
	'list': list(range(100)) * 300,
	'dict': dict((str(i),'a') for i in range(5000)),
	'int': 3000,
	'float': 100.123456
	}'''
	run_tests(get_tests(False), plain_data, 1000)

	print("Benchmarking numpy data ...............")
	numpy_data = """
	import numpy as np
	d = {
	"arrays": [np.random.rand(1000, 353) for k in range(10)]
	} """
	run_tests(get_tests(True), numpy_data, 300)