elowy01 · November 22, 2019 13:40
diff --git a/read_csv_describe.py b/read_csv_describe.py
 # Reading multiple .csv files
 # files/input.cova
 # files/input.covb
 # .....

 import dask.dataframe as dd

 df = dd.read_csv('files/input.cov*', names=['chr','pos','cov'], sep='\t')

 print("Descriptors: {0}".format(df['cov'].describe().compute()))

 //
 # Operation on a single .csv that will be partioned by Dask:
 import dask.dataframe as dd

 df = dd.read_csv('files/out.cov', names=['chr','pos','cov'], sep='\t', blocksize=34000000) # blocksize controls the size of each partition.

 print("Descriptors: {0}".format(df['cov'].describe().compute()))
	# Reading multiple .csv files
	# files/input.cova
	# files/input.covb
	# .....

	import dask.dataframe as dd

	df = dd.read_csv('files/input.cov*', names=['chr','pos','cov'], sep='\t')

	print("Descriptors: {0}".format(df['cov'].describe().compute()))

	//
	# Operation on a single .csv that will be partioned by Dask:
	import dask.dataframe as dd

	df = dd.read_csv('files/out.cov', names=['chr','pos','cov'], sep='\t', blocksize=34000000) # blocksize controls the size of each partition.

	print("Descriptors: {0}".format(df['cov'].describe().compute()))