myles · August 14, 2017 15:31
diff --git a/csv_spliter.py b/csv_spliter.py
 #!/usr/bin/env python3
 import argparse
 import math
 import os.path

 import pandas as pd
 import numpy as np


 def main(filepath):
    if filepath.endswith('.csv'):
        df_org = pd.read_csv(filepath)
    elif filepath.endswith('.xlsx') or filepath.endswith('.xls'):
        df_org = pd.read_excel(filepath)
    else:
        raise Exception("I don't know what the file is.")

    row_count, column_count = df_org.shape

    split_by = math.ceil(row_count / 5000)

    dfs = np.array_split(df_org, split_by)

    filename = os.path.basename(filepath).replace('.csv', '')
    directory = os.path.dirname(filepath)

    for index, df in enumerate(dfs):
        df.to_csv(os.path.join(directory,
                               '{0}_{1}.csv'.format(filename,
                                                    index)))


 if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument('large_csv_file')
    args = parser.parse_args()

    main(args.large_csv_file)
	#!/usr/bin/env python3
	import argparse
	import math
	import os.path

	import pandas as pd
	import numpy as np


	def main(filepath):
	if filepath.endswith('.csv'):
	df_org = pd.read_csv(filepath)
	elif filepath.endswith('.xlsx') or filepath.endswith('.xls'):
	df_org = pd.read_excel(filepath)
	else:
	raise Exception("I don't know what the file is.")

	row_count, column_count = df_org.shape

	split_by = math.ceil(row_count / 5000)

	dfs = np.array_split(df_org, split_by)

	filename = os.path.basename(filepath).replace('.csv', '')
	directory = os.path.dirname(filepath)

	for index, df in enumerate(dfs):
	df.to_csv(os.path.join(directory,
	'{0}_{1}.csv'.format(filename,
	index)))


	if __name__ == '__main__':
	parser = argparse.ArgumentParser()
	parser.add_argument('large_csv_file')
	args = parser.parse_args()

	main(args.large_csv_file)