Susensio · December 19, 2022 18:13
diff --git a/pandas_groupby_mostfrequent.py b/pandas_groupby_mostfrequent.py
 # Default way of handling groupby and mostfrequent is slow
 df.groupby(groupby_column)[null_column].agg(lambda x: x.iat[0])

 # if there are nan's in df:
 df.groupby(groupby_column)[null_column].agg(lambda x: x.iat[0] if not x.isnull().all() else np.nan)

 # faster way: use value_counts and keep first value
 (df
 .groupby(groupby_column)[null_column]
 .value_counts(sort=True, dropna=False)
 .reset_index(name='Counts')
 .drop_duplicates(subset=groupby_column, keep='first')
 .set_index(groupby_column)
 .drop(columns='Counts')
 .squeeze()
 )
	# Default way of handling groupby and mostfrequent is slow
	df.groupby(groupby_column)[null_column].agg(lambda x: x.iat[0])

	# if there are nan's in df:
	df.groupby(groupby_column)[null_column].agg(lambda x: x.iat[0] if not x.isnull().all() else np.nan)

	# faster way: use value_counts and keep first value
	(df
	.groupby(groupby_column)[null_column]
	.value_counts(sort=True, dropna=False)
	.reset_index(name='Counts')
	.drop_duplicates(subset=groupby_column, keep='first')
	.set_index(groupby_column)
	.drop(columns='Counts')
	.squeeze()
	)
No results found