prerakmody · June 26, 2019 13:05
diff --git a/pandas_hacks.py b/pandas_hacks.py
 import pdb; #pdb.set_trace()
 import pandas as pd
 from IPython.display import display

 # 1. Kick Off
 df      = pd.read_csv('myfile.csv')
 print (df.head())
 print (df.head(n=10))
 print (df.columns)
 col_Y   = ''
 for col in df.columns:
    print (' - Col : ', col, ' || Unique Vals : ', df[col].unique())
 display(df)

 ## 2. Handling nan values
 df.dropna(inplace=True)
 nanidxs = pd.isnull(df).any(1).nonzero()[0]
 print ('Total NaN vals : ', len(df) - len(df.dropna()), ' || NaN Idxs : ', nanidxs)
 print ('Data with NaN vals : ', df.iloc[nanidxs])
 for col in df.columns:
    tmp_len = len(df[df[col].isnull()])
    if tmp_len:
        print ('Col : ', col, ' || NaN Rows :', tmp_len)
 bool_NaN = df_scene10.isnull().values.any()

 ## 3. Dropping rows/cols
 df.drop('col1', axis=1, inplace=True)
 df.drop(df[df['col1'] == 'col1_value'].index, axis=0, inplace=True)

 # 4. Studying columns
 def getCounter(df, col):
    tmp = df[col].value_counts()
    print ('  --> ', list(zip(tmp.keys(), tmp.tolist())))
 getCounter(df, col1)

 ## 5. Convert to matrix
 data = df.as_matrix() 
 data = df.values
 X = data[:,:-1] # for ML purposes
 Y = data[:,-1]  # for ML purposes

 ## 6. GroupBy commands
 stats1 = df.groupby(['col1'])['col2'].count()
 df['col1'].agg(['sum','count']).sort_values('count', ascending=False)
 df.groupby(['col1', 'col2']).agg({'col3':'count', 'col4':'sum'})
 df.groupby('col1')['col1'].agg(['count']).nlargest(10, 'count')
 df.groupby(['col1', 'col2']).aggregate({'col3':'count'}).sort_values('col3', ascending=False)

 ## 7. Datetime
 df['col1'] = pd.to_datetime(df['col1'])
 df['hrs']  = df['col1'].dt.hour

 ## 8. Categorical/One hot encoding
 df['col1'] = df['col1'].astype("category").cat.codes
 df['col1'] = pd.Categorical(df['col1'])
 df1        = pd.get_dummies(df['col1'], prefix = 'col1')
 print (' - Col :', 'col1', ' || Extra cols added : ', len(df1.columns))
 df         = pd.concat([df, df1], axis=1)

 col1_unique        = np.array(df[col1].unique().tolist()) 
 col1_not           = np.delete(col1_unique, np.where(np.isin(some_list, col1_unique)))
 df[col1 + '_none'] = np.where(np.isin(df[col1], col1_not), 1, 0)

 ## 9. Finding/Indexing
 df['Y']    = np.where(df['col1']=='col1_value', 1, 0)
 df['col2'] = df['col1'].copy()
 idxs       = df[df['col2'] == 'val2'].index.tolist()
 df.loc[idxs, 'col2'] = df.loc[idxs, 'col1']*some_var

 ## 10. Misc
 df.corr()
 import seaborn as sns
 sns.heatmap(df.corr(), cmap = sns.cm.vlag)

 ## 11. Rearranging Columns
 cols = df.columns.tolist()
 cols.remove('Y')
 df = df[cols + ['Y']]

 ## 12. Writing to a .csv
 tmp = np.array([1,1,1,1,1,1,1]).reshape(-1,1)
 df = pd.DataFrame(tmp)
 df.to_csv('file.csv', sep=',', index=False, header=False)
	import pdb; #pdb.set_trace()
	import pandas as pd
	from IPython.display import display

	# 1. Kick Off
	df = pd.read_csv('myfile.csv')
	print (df.head())
	print (df.head(n=10))
	print (df.columns)
	col_Y = ''
	for col in df.columns:
	print (' - Col : ', col, ' \|\| Unique Vals : ', df[col].unique())
	display(df)

	## 2. Handling nan values
	df.dropna(inplace=True)
	nanidxs = pd.isnull(df).any(1).nonzero()[0]
	print ('Total NaN vals : ', len(df) - len(df.dropna()), ' \|\| NaN Idxs : ', nanidxs)
	print ('Data with NaN vals : ', df.iloc[nanidxs])
	for col in df.columns:
	tmp_len = len(df[df[col].isnull()])
	if tmp_len:
	print ('Col : ', col, ' \|\| NaN Rows :', tmp_len)
	bool_NaN = df_scene10.isnull().values.any()

	## 3. Dropping rows/cols
	df.drop('col1', axis=1, inplace=True)
	df.drop(df[df['col1'] == 'col1_value'].index, axis=0, inplace=True)

	# 4. Studying columns
	def getCounter(df, col):
	tmp = df[col].value_counts()
	print (' --> ', list(zip(tmp.keys(), tmp.tolist())))
	getCounter(df, col1)

	## 5. Convert to matrix
	data = df.as_matrix()
	data = df.values
	X = data[:,:-1] # for ML purposes
	Y = data[:,-1] # for ML purposes

	## 6. GroupBy commands
	stats1 = df.groupby(['col1'])['col2'].count()
	df['col1'].agg(['sum','count']).sort_values('count', ascending=False)
	df.groupby(['col1', 'col2']).agg({'col3':'count', 'col4':'sum'})
	df.groupby('col1')['col1'].agg(['count']).nlargest(10, 'count')
	df.groupby(['col1', 'col2']).aggregate({'col3':'count'}).sort_values('col3', ascending=False)

	## 7. Datetime
	df['col1'] = pd.to_datetime(df['col1'])
	df['hrs'] = df['col1'].dt.hour

	## 8. Categorical/One hot encoding
	df['col1'] = df['col1'].astype("category").cat.codes
	df['col1'] = pd.Categorical(df['col1'])
	df1 = pd.get_dummies(df['col1'], prefix = 'col1')
	print (' - Col :', 'col1', ' \|\| Extra cols added : ', len(df1.columns))
	df = pd.concat([df, df1], axis=1)

	col1_unique = np.array(df[col1].unique().tolist())
	col1_not = np.delete(col1_unique, np.where(np.isin(some_list, col1_unique)))
	df[col1 + '_none'] = np.where(np.isin(df[col1], col1_not), 1, 0)

	## 9. Finding/Indexing
	df['Y'] = np.where(df['col1']=='col1_value', 1, 0)
	df['col2'] = df['col1'].copy()
	idxs = df[df['col2'] == 'val2'].index.tolist()
	df.loc[idxs, 'col2'] = df.loc[idxs, 'col1']*some_var

	## 10. Misc
	df.corr()
	import seaborn as sns
	sns.heatmap(df.corr(), cmap = sns.cm.vlag)

	## 11. Rearranging Columns
	cols = df.columns.tolist()
	cols.remove('Y')
	df = df[cols + ['Y']]

	## 12. Writing to a .csv
	tmp = np.array([1,1,1,1,1,1,1]).reshape(-1,1)
	df = pd.DataFrame(tmp)
	df.to_csv('file.csv', sep=',', index=False, header=False)