ohld · October 15, 2019 09:50
diff --git a/dataframe_resume.py b/dataframe_resume.py
 def resumetable(df):
    print(f"Dataset Shape: {df.shape}")
    summary = pd.DataFrame(df.dtypes,columns=['dtypes'])
    summary = summary.reset_index()
    summary['Name'] = summary['index']
    summary = summary[['Name','dtypes']]
    summary['Missing'] = df.isnull().sum().values    
    summary['Uniques'] = df.nunique().values
    summary['First Value'] = df.loc[0].values
    summary['Second Value'] = df.loc[1].values
    summary['Third Value'] = df.loc[2].values

    for name in summary['Name'].value_counts().index:
        summary.loc[summary['Name'] == name, 'Entropy'] = round(stats.entropy(df[name].value_counts(normalize=True), base=2),2) 

    return summary
	def resumetable(df):
	print(f"Dataset Shape: {df.shape}")
	summary = pd.DataFrame(df.dtypes,columns=['dtypes'])
	summary = summary.reset_index()
	summary['Name'] = summary['index']
	summary = summary[['Name','dtypes']]
	summary['Missing'] = df.isnull().sum().values
	summary['Uniques'] = df.nunique().values
	summary['First Value'] = df.loc[0].values
	summary['Second Value'] = df.loc[1].values
	summary['Third Value'] = df.loc[2].values

	for name in summary['Name'].value_counts().index:
	summary.loc[summary['Name'] == name, 'Entropy'] = round(stats.entropy(df[name].value_counts(normalize=True), base=2),2)

	return summary
No results found