Maria MariaLavrovskaya

MariaLavrovskaya / MLR_for_movies.py

Created June 14, 2019 11:34

	#importing the libraries
	import pandas as pd
	import numpy as np
	import matplotlib
	import matplotlib.pyplot as plt
	import seaborn as sns
	import statsmodels.api as sm
	%matplotlib inline
	from sklearn.model_selection import train_test_split
	from sklearn.linear_model import LinearRegression

MariaLavrovskaya / MLR_1.py

Last active June 14, 2019 11:39

	#importing the libraries
	import pandas as pd
	import numpy as np
	import matplotlib
	import matplotlib.pyplot as plt
	import seaborn as sns
	import statsmodels.api as sm
	%matplotlib inline
	from sklearn.model_selection import train_test_split
	from sklearn.linear_model import LinearRegression

MariaLavrovskaya / MLR_movies_2.py

Created June 14, 2019 11:44

	#Using Pearson Correlation
	plt.figure(figsize=(12,10))
	cor = df.corr()
	sns.heatmap(cor, annot=True, cmap=plt.cm.Reds)
	plt.show()

MariaLavrovskaya / MLR_movies_2.py

Created June 14, 2019 11:44

	#Using Pearson Correlation
	plt.figure(figsize=(12,10))
	cor = df.corr()
	sns.heatmap(cor, annot=True, cmap=plt.cm.Reds)
	plt.show()

MariaLavrovskaya / MLR_movies_3.py

Created June 14, 2019 11:52

	df.set_index("title", inplace=True) #setting the index name
	df_1 = df.loc[:, ['imdb_rating','genre', 'runtime', 'best_pic_nom',
	'top200_box', 'director', 'actor1']]

MariaLavrovskaya / MLR_movies_4.py

Created June 14, 2019 11:52

	#Let's also check the column-wise distribution of null values
	print(df_1.isnull().values.sum())
	print(df_1.isnull().sum())

MariaLavrovskaya / MLR_movies_5.py

Created June 14, 2019 11:54

	#Dropping missing values from my dataset
	df_1.dropna(how='any', inplace=True)
	print(df_1.isnull().values.sum()) #checking for missing values after the dropna()

MariaLavrovskaya / MLR_movies_6.py

Created June 14, 2019 11:57

	#Treating categorical variables with One-hot-encoding
	from sklearn import preprocessing
	le = preprocessing.LabelEncoder()


	# LabelEncoder for a number of columns
	class MultiColumnLabelEncoder:

	def __init__(self, columns = None):
	self.columns = columns # list of column to encode

MariaLavrovskaya / MLR_movies_7.py

Created June 14, 2019 11:59

	#From labels to dummy
	from sklearn.preprocessing import OneHotEncoder
	ohe = OneHotEncoder(sparse=False)
	X_train_ohe = ohe.fit_transform(X_train_le)

MariaLavrovskaya / MLR_movies_8.py

Created June 14, 2019 12:03

	#Treating continous variables with Standart Scaler

	columns_to_scale = np.array(df_1['runtime'])
	#Initiate Scaler:
	scaler = StandardScaler()
	scaled_columns = scaler.fit_transform(columns_to_scale[:, np.newaxis])