simicd · June 24, 2020 18:56
diff --git a/arrow_time_performance.py b/arrow_time_performance.py
 # Read csv and calculate mean
 %%timeit
 pd.read_csv("penguin-dataset.csv")["Flipper Length (mm)"].mean()


 # Read parquet and calculate mean
 %%timeit
 pd.read_parquet("penguin-dataset.parquet", columns=["Flipper Length (mm)"]).mean()


 # Read Arrow using file API and calculate mean
 %%timeit
 with pa.OSFile('penguin-dataset.arrow', 'rb') as source:
    table = pa.ipc.open_file(source).read_all().column("Flipper Length (mm)")
 result = table.to_pandas().mean()


 # Read Arrow with memory-mapped API with missing values
 %%timeit
 source = pa.memory_map('penguin-dataset.arrow', 'r')
 table = pa.ipc.RecordBatchFileReader(source).read_all().column("Flipper Length (mm)")
 result = table.to_pandas().mean()


 # Read Arrow with memory-mapped API without missing values (zero-copy)
 %%timeit
 source = pa.memory_map('penguin-dataset-nonan.arrow', 'r')
 table = pa.ipc.RecordBatchFileReader(source).read_all().column("Flipper Length (mm)")
 result = table.to_pandas().mean()
	# Read csv and calculate mean
	%%timeit
	pd.read_csv("penguin-dataset.csv")["Flipper Length (mm)"].mean()


	# Read parquet and calculate mean
	%%timeit
	pd.read_parquet("penguin-dataset.parquet", columns=["Flipper Length (mm)"]).mean()


	# Read Arrow using file API and calculate mean
	%%timeit
	with pa.OSFile('penguin-dataset.arrow', 'rb') as source:
	table = pa.ipc.open_file(source).read_all().column("Flipper Length (mm)")
	result = table.to_pandas().mean()


	# Read Arrow with memory-mapped API with missing values
	%%timeit
	source = pa.memory_map('penguin-dataset.arrow', 'r')
	table = pa.ipc.RecordBatchFileReader(source).read_all().column("Flipper Length (mm)")
	result = table.to_pandas().mean()


	# Read Arrow with memory-mapped API without missing values (zero-copy)
	%%timeit
	source = pa.memory_map('penguin-dataset-nonan.arrow', 'r')
	table = pa.ipc.RecordBatchFileReader(source).read_all().column("Flipper Length (mm)")
	result = table.to_pandas().mean()