Frank thepycoach

Data Scientist

thepycoach / data_cleaning.py

Last active March 6, 2021 14:04

	mode = ''.join(df_netflix_2019['rating'].mode())
	df_netflix_2019['rating'].fillna(mode, inplace=True)

thepycoach / data_cleaning.py

Created March 6, 2021 00:11

	#creating column (extract)
	df_movie = df_netflix_2019[df_netflix_2019['type']=='Movie']
	df_movie = df_movie.assign(minute = df_movie['duration'].str.extract(r'(\d+)', expand=False).astype(int))

thepycoach / data_cleaning.py

Last active March 6, 2021 05:35

	df_netflix_originals = pd.read_csv('netflix_originals.csv')
	#inconsintent column names
	df_netflix_originals.rename(columns={'titles':'title', 'years':'release_year'}, inplace=True)

thepycoach / data_cleaning.py

Last active March 6, 2021 05:42

	df_netflix_originals['title'] = df_netflix_originals['title'].apply(lambda x:x.lower())
	df_netflix_originals['title'] = df_netflix_originals['title'].str.lower()

thepycoach / data_cleaning.py

Created March 6, 2021 01:56

	from fuzzywuzzy import process, fuzz
	states = ['New York', 'California', 'Washington', 'Hawaii']
	df_states = pd.DataFrame({'states':['NY', 'CA', 'Washington DC', 'Hawai']})
	df_states[['match', 'score']] = df_states['states'].apply(lambda x:process.extractOne(x, states, scorer=fuzz.token_sort_ratio)).apply(pd.Series)
	df_states

thepycoach / data_cleaning.py

Created March 6, 2021 05:39

df_netflix_originals = df_netflix_originals.astype({"release_year": int})

thepycoach / data_cleaning.py

Created March 6, 2021 05:43

	df_netflix_originals['title'] = df_netflix_originals['title'].apply(lambda x:x.strip())
	df_netflix_originals['title'] = df_netflix_originals['title'].str.strip()

thepycoach / data_cleaning.py

Created March 6, 2021 05:46

	# remove punctuation: clean characters other than word or spaces
	df_netflix_originals['title'] = df_netflix_originals['title'].apply(lambda x:re.sub('[^\w\s]','',x))
	df_netflix_originals['title'].replace('[^\w\s]', '', regex=True, inplace=True)

thepycoach / data_cleaning.py

Last active March 6, 2021 18:37

	df_netflix = pd.merge(df_netflix_originals, df_netflix_2019, on=['title', 'type', 'release_year'],
	how='outer')
	df_netflix['original'].fillna('Catalog', inplace=True)

thepycoach / data_cleaning.py

Last active March 6, 2021 18:26

	#drop_duplicates: data duplicated because of disagreement in releaase_year
	df_netflix.drop_duplicates(['title'], keep='first', inplace=True)