ebakan · May 24, 2019 23:30
diff --git a/ridge_bias_variance.py b/ridge_bias_variance.py
 from sklearn.datasets import make_regression
 from sklearn.model_selection import train_test_split
 from sklearn.linear_model import Ridge
 from sklearn.metrics import mean_squared_error
 import numpy as np
 import matplotlib.pyplot as plt

 # generate data
 X, y, w = make_regression(n_samples=1000, n_features=200, coef=True,
                          random_state=1, bias=0, noise=3, tail_strength=0.9, effective_rank=10)

 # 60/40 split on train/test data
 X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.4, random_state=1)

 # list of alphas
 alphas = 10.**np.arange(-4, 3, 0.1)

 # loop through alphas, fit model, extract train and test results
 scores_test = []
 scores_train = []
 for a in alphas:
 	print(a)
    clf = Ridge(alpha=a, solver='auto')
    clf.fit(X_train, y_train)
    scores_train.append(mean_squared_error(y_train, clf.predict(X_train)))
    scores_test.append(mean_squared_error(y_test, clf.predict(X_test))) 

 # plot MSE for train and test sets
 fig, ax = plt.subplots(figsize=(15, 7))
 ax.set_xscale('log')
 ax.plot(alphas, scores_test, 'r', label='test')
 ax.plot(alphas, scores_train, 'b', label='train')
 ax.set_ylabel('MSE', fontsize=16)
 ax.set_xlabel('alpha (regularisation strength)', fontsize=16)
 ax.legend(fontsize=18)
 plt.ion(); plt.show()
	from sklearn.datasets import make_regression
	from sklearn.model_selection import train_test_split
	from sklearn.linear_model import Ridge
	from sklearn.metrics import mean_squared_error
	import numpy as np
	import matplotlib.pyplot as plt

	# generate data
	X, y, w = make_regression(n_samples=1000, n_features=200, coef=True,
	random_state=1, bias=0, noise=3, tail_strength=0.9, effective_rank=10)

	# 60/40 split on train/test data
	X_train, X_test, y_train, y_test = train_test_split(
	X, y, test_size=0.4, random_state=1)

	# list of alphas
	alphas = 10.**np.arange(-4, 3, 0.1)

	# loop through alphas, fit model, extract train and test results
	scores_test = []
	scores_train = []
	for a in alphas:
	print(a)
	clf = Ridge(alpha=a, solver='auto')
	clf.fit(X_train, y_train)
	scores_train.append(mean_squared_error(y_train, clf.predict(X_train)))
	scores_test.append(mean_squared_error(y_test, clf.predict(X_test)))

	# plot MSE for train and test sets
	fig, ax = plt.subplots(figsize=(15, 7))
	ax.set_xscale('log')
	ax.plot(alphas, scores_test, 'r', label='test')
	ax.plot(alphas, scores_train, 'b', label='train')
	ax.set_ylabel('MSE', fontsize=16)
	ax.set_xlabel('alpha (regularisation strength)', fontsize=16)
	ax.legend(fontsize=18)
	plt.ion(); plt.show()