naranjja · September 5, 2018 03:17
diff --git a/remove_outliers.py b/remove_outliers.py
 import pandas as pd
 import numpy as np

 def drop_outliers(df, field_name):
    distance = 1.5 * (np.nanpercentile(df[field_name], 75) - np.nanpercentile(df[field_name], 25))
    df.drop(df[df[field_name] > distance + np.nanpercentile(df[field_name], 75)].index, inplace=True)
    df.drop(df[df[field_name] < np.nanpercentile(df[field_name], 25) - distance].index, inplace=True)

 if __name__ == "__main__":
  # assuming df exists and contains numeric variables

  print(df.shape)

  for column in df.select_dtypes(include=[np.number]).columns:
      drop_outliers(df, column)

  print(df.shape)
	import pandas as pd
	import numpy as np

	def drop_outliers(df, field_name):
	distance = 1.5 * (np.nanpercentile(df[field_name], 75) - np.nanpercentile(df[field_name], 25))
	df.drop(df[df[field_name] > distance + np.nanpercentile(df[field_name], 75)].index, inplace=True)
	df.drop(df[df[field_name] < np.nanpercentile(df[field_name], 25) - distance].index, inplace=True)

	if __name__ == "__main__":
	# assuming df exists and contains numeric variables

	print(df.shape)

	for column in df.select_dtypes(include=[np.number]).columns:
	drop_outliers(df, column)

	print(df.shape)