brendancol · November 10, 2016 17:17
diff --git a/hdf_to_parquet.py b/hdf_to_parquet.py
 # Install fastparquet and pytables
 # conda install pytables
 # conda install -c conda-forge fastparquet
 # conda install python-snappy

 import pandas as pd
 import fastparquet as fp

 # Write file
 df = pd.read_hdf(data_path, base)
 fp.write('census.parq', df, partitions=[0, 100000000, 200000000])
 fp.write('census.gz.parq', df, partitions=[0, 100000000, 200000000], compression='gzip')
 fp.write('census.snappy.parq', df, partitions=[0, 100000000, 200000000], compression='snappy')

 # Read file
 df2 = fp.ParquetFile('census.parq').to_pandas()
	# Install fastparquet and pytables
	# conda install pytables
	# conda install -c conda-forge fastparquet
	# conda install python-snappy

	import pandas as pd
	import fastparquet as fp

	# Write file
	df = pd.read_hdf(data_path, base)
	fp.write('census.parq', df, partitions=[0, 100000000, 200000000])
	fp.write('census.gz.parq', df, partitions=[0, 100000000, 200000000], compression='gzip')
	fp.write('census.snappy.parq', df, partitions=[0, 100000000, 200000000], compression='snappy')

	# Read file
	df2 = fp.ParquetFile('census.parq').to_pandas()