Félix Revert FelixChop

Data scientist & Product manager

FelixChop / standardisation_scaling.py

Created March 26, 2020 11:00

	from sklearn.preprocessing import StandardScaler, MinMaxScaler
	standardise_age = StandardScaler()
	rescale_fare = MinMaxScaler()

	standardise_age.fit(train[['Age']])
	rescale_fare.fit(train[['Fare']])

FelixChop / transform_3_sets_missing_values.py

Created March 26, 2020 10:44

	transformed_age = \
	pd.DataFrame(imputer_age.transform(train[['Age']]),
	columns=['Age', 'Age_missing'],
	index=train.index) # the most important line: do not forget the index

	train = train.drop(columns=['Age']).join(transformed_age)

	transformed_age = \
	pd.DataFrame(imputer_age.transform(validation[['Age']]),
	columns=['Age', 'Age_missing'],

FelixChop / missing_value_imputation_to_dataframe.py

Created March 26, 2020 10:30

	pd.DataFrame(imputer_age.transform(train[['Age']]),
	columns=['Age', 'Age_missing'])

FelixChop / missing_value_imputation.py

Created March 26, 2020 10:24

	from sklearn.impute import SimpleImputer
	imputer_age = SimpleImputer(strategy='median',
	add_indicator=True)

FelixChop / isolation_forest.py

Created March 24, 2020 04:35

	from sklearn.ensemble import IsolationForest
	outlier_detection = IsolationForest(random_state=1, behaviour="new")
	outlier_detection.fit(titanic[['Fare', 'SibSp', 'Parch', 'Age']].dropna())
	data = titanic[['Fare', 'SibSp', 'Parch', 'Age']].dropna()
	data['anomaly_score'] = outlier_detection.score_samples(data)
	data.sort_values('anomaly_score')

FelixChop / delete_noisy_columns.py

Created March 24, 2020 03:46

	for column_to_delete in ['Ticket', 'Cabin', 'Name']:
	del titanic[column_to_delete]

FelixChop / profiling_big_dataset.py

Created March 24, 2020 02:41

profile = ProfileReport(data, progress_bar=True, minimal=True)

FelixChop / partition_3_sets.py

Last active April 2, 2020 12:31

	from sklearn.model_selection import train_test_split

	target = 'Survived'
	intermediate_sample, holdout = train_test_split(titanic,
	test_size=.2,
	random_state=2020,
	stratify=titanic[target])
	train, validation = train_test_split(intermediate_sample,
	test_size=.2,
	random_state=2020,

FelixChop / remove_outliers.py

Created February 25, 2020 13:10

	# The following code removes the data where 'column_with_outliers' is more than 10 times its average
	data = data.loc[data['column_with_outliers'] < data['column_with_outliers'].mean()*10]

FelixChop / remove_imbalanced_class.py

Created February 25, 2020 13:05

data = data.loc[~(data['column_class'] == 'imbalanced_class')].reset_index(drop=True)