untodesu · December 24, 2021 09:30
diff --git a/sus.html b/sus.html
 <p style="code { white-space: pre; }">
 <code white-space="pre">
 SELECT COUNT(*) FROM pulsar_stars <br>
 WHERE (TARGET = 0 AND MIP BETWEEN 83 AND 84) OR <br>
 (TARGET = 1 AND MIP BETWEEN 83 AND 89)<br>
 ^^^^^ R=79<br>
 SELECT AVG(MIP) FROM pulsar_stars <br>
 WHERE (TARGET = 0 AND MIP BETWEEN 83 AND 84) OR <br>
 (TARGET = 1 AND MIP BETWEEN 83 AND 89)<br>
 ^^^^^ R=84.5427964154411764705882352941176470588<br>
 SELECT * FROM pulsar_stars <br>
 WHERE (TARGET = 0 AND MIP BETWEEN 83 AND 84) OR <br>
 (TARGET = 1 AND MIP BETWEEN 83 AND 89)<br><br>

 import numpy as np<br>
 import pandas as pd<br>
 from pandas import Series, DataFrame<br>
 from sklearn.preprocessing import MinMaxScaler<br>

 data = pd.read_csv('report.csv', usecols=['MIP','STDIP','EKIP','SIP','MC','STDC','EKC','SC'])<br>
 data = MinMaxScaler().fit_transform(data)<br>
 avr = data.mean(axis = 0)<br>
 print("T2:", avr[0])<br>

 from sklearn.linear_model import LogisticRegression<br>
 y = pd.read_csv('report.csv', usecols = ['TARGET'])<br>
 reg = LogisticRegression(random_state = 2019, solver='lbfgs').fit(data, y.values.ravel())<br>
 print("T3: ([[not, is]]):", reg.predict_proba([[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]]))<br><br>

 from sklearn.neighbors import KNeighborsClassifier<br>
 D_MANH=1<br>
 D_EUCL=2<br>
 D_NEIG=136<br>
 neigh = KNeighborsClassifier(n_neighbors = D_NEIG, p = D_MANH)<br>
 neigh.fit(data, y.values.ravel())<br>
 Star = [0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]<br>
 print("T4:", neigh.kneighbors([Star])[0][0][0])<br><br><br>


 import pandas as pd<br>
 import numpy as np<br>
 import matplotlib.pyplot as plt<br>
 import mnist<br>
 from sklearn.model_selection import train_test_split<br>
 from sklearn.metrics import confusion_matrix<br>
 from sklearn.decomposition import PCA<br>
 from sklearn.multiclass import OneVsRestClassifier<br>
 from sklearn.ensemble import RandomForestClassifier<br>
 %matplotlib inline<br>
 D_WIDTH=28<br>
 D_MINDISP=0.83<br>
 X_train = mnist.train_images()<br>
 y_train = mnist.train_labels()<br>
 dim = D_WIDTH*D_WIDTH<br>
 X_train = X_train.reshape(len(X_train), dim)<br>
 ev_ = D_MINDISP<br>
 M = 0<br>
 pca = PCA(n_components=70, svd_solver='full')<br>
 pca.fit(X_train)<br>
 explained_variance = np.round(np.cumsum(pca.explained_variance_ratio_),3)<br>
 for i, ev in enumerate(explained_variance):<br>
    if ev > ev_:<br>
        M = i + 1<br>
        break<br>
 plt.plot(np.arange(70), explained_variance)<br>
 plt.plot([0, 70], [0.84, 0.84]);<br>
 print("T1: M =", M)<br><br>

 D_TS=0.3<br>
 D_RS=126<br>
 pca = PCA(n_components = M, svd_solver = 'full')<br>
 pca.fit(X_train)<br>
 X_test_transformed = pca.transform(X_train)<br>
 X_train, X_test, y_train, y_test = train_test_split(X_test_transformed, y_train, test_size = D_TS, random_state = D_RS)<br>
 print("T2:", sum([i[0] for i in X_train]) / len(X_train))<br><br>

 D_CRIT='gini'<br>
 D_MSLF=10<br>
 D_MXDP=20<br>
 D_ESTS=10<br>
 D_RSTT=126<br>
 D_XYOF=5<br>
 rfc = RandomForestClassifier(criterion=D_CRIT, min_samples_leaf=D_MSLF, max_depth=D_MXDP, n_estimators=D_ESTS, random_state=D_RSTT)<br>
 clf = OneVsRestClassifier(rfc).fit(X_train, y_train)<br>
 y_pred = clf.predict(X_test)<br>
 CM = confusion_matrix(y_test, y_pred)<br>
 print("T3:", CM[D_XYOF][D_XYOF])<br><br>

 D_TARGETVAL=4<br>
 D_TARGETFILE=20<br>
 data = pd.read_csv('pred_for_task.csv', index_col='FileName')<br>
 X_test = data.drop('Label', axis=1)<br>
 X_test = pca.transform(X_test)<br>
 y_test = data['Label']<br>
 y_pred = clf.predict(X_test)<br>
 print("T4:", clf.predict_proba([X_test[D_TARGETFILE-1]])[0][D_TARGETVAL])<br>
 </code>
  </p>
	<p style="code { white-space: pre; }">
	<code white-space="pre">
	SELECT COUNT(*) FROM pulsar_stars <br>
	WHERE (TARGET = 0 AND MIP BETWEEN 83 AND 84) OR <br>
	(TARGET = 1 AND MIP BETWEEN 83 AND 89)<br>
	^^^^^ R=79<br>
	SELECT AVG(MIP) FROM pulsar_stars <br>
	WHERE (TARGET = 0 AND MIP BETWEEN 83 AND 84) OR <br>
	(TARGET = 1 AND MIP BETWEEN 83 AND 89)<br>
	^^^^^ R=84.5427964154411764705882352941176470588<br>
	SELECT * FROM pulsar_stars <br>
	WHERE (TARGET = 0 AND MIP BETWEEN 83 AND 84) OR <br>
	(TARGET = 1 AND MIP BETWEEN 83 AND 89)<br><br>

	import numpy as np<br>
	import pandas as pd<br>
	from pandas import Series, DataFrame<br>
	from sklearn.preprocessing import MinMaxScaler<br>

	data = pd.read_csv('report.csv', usecols=['MIP','STDIP','EKIP','SIP','MC','STDC','EKC','SC'])<br>
	data = MinMaxScaler().fit_transform(data)<br>
	avr = data.mean(axis = 0)<br>
	print("T2:", avr[0])<br>

	from sklearn.linear_model import LogisticRegression<br>
	y = pd.read_csv('report.csv', usecols = ['TARGET'])<br>
	reg = LogisticRegression(random_state = 2019, solver='lbfgs').fit(data, y.values.ravel())<br>
	print("T3: ([[not, is]]):", reg.predict_proba([[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]]))<br><br>

	from sklearn.neighbors import KNeighborsClassifier<br>
	D_MANH=1<br>
	D_EUCL=2<br>
	D_NEIG=136<br>
	neigh = KNeighborsClassifier(n_neighbors = D_NEIG, p = D_MANH)<br>
	neigh.fit(data, y.values.ravel())<br>
	Star = [0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]<br>
	print("T4:", neigh.kneighbors([Star])[0][0][0])<br><br><br>


	import pandas as pd<br>
	import numpy as np<br>
	import matplotlib.pyplot as plt<br>
	import mnist<br>
	from sklearn.model_selection import train_test_split<br>
	from sklearn.metrics import confusion_matrix<br>
	from sklearn.decomposition import PCA<br>
	from sklearn.multiclass import OneVsRestClassifier<br>
	from sklearn.ensemble import RandomForestClassifier<br>
	%matplotlib inline<br>
	D_WIDTH=28<br>
	D_MINDISP=0.83<br>
	X_train = mnist.train_images()<br>
	y_train = mnist.train_labels()<br>
	dim = D_WIDTH*D_WIDTH<br>
	X_train = X_train.reshape(len(X_train), dim)<br>
	ev_ = D_MINDISP<br>
	M = 0<br>
	pca = PCA(n_components=70, svd_solver='full')<br>
	pca.fit(X_train)<br>
	explained_variance = np.round(np.cumsum(pca.explained_variance_ratio_),3)<br>
	for i, ev in enumerate(explained_variance):<br>
	if ev > ev_:<br>
	M = i + 1<br>
	break<br>
	plt.plot(np.arange(70), explained_variance)<br>
	plt.plot([0, 70], [0.84, 0.84]);<br>
	print("T1: M =", M)<br><br>

	D_TS=0.3<br>
	D_RS=126<br>
	pca = PCA(n_components = M, svd_solver = 'full')<br>
	pca.fit(X_train)<br>
	X_test_transformed = pca.transform(X_train)<br>
	X_train, X_test, y_train, y_test = train_test_split(X_test_transformed, y_train, test_size = D_TS, random_state = D_RS)<br>
	print("T2:", sum([i[0] for i in X_train]) / len(X_train))<br><br>

	D_CRIT='gini'<br>
	D_MSLF=10<br>
	D_MXDP=20<br>
	D_ESTS=10<br>
	D_RSTT=126<br>
	D_XYOF=5<br>
	rfc = RandomForestClassifier(criterion=D_CRIT, min_samples_leaf=D_MSLF, max_depth=D_MXDP, n_estimators=D_ESTS, random_state=D_RSTT)<br>
	clf = OneVsRestClassifier(rfc).fit(X_train, y_train)<br>
	y_pred = clf.predict(X_test)<br>
	CM = confusion_matrix(y_test, y_pred)<br>
	print("T3:", CM[D_XYOF][D_XYOF])<br><br>

	D_TARGETVAL=4<br>
	D_TARGETFILE=20<br>
	data = pd.read_csv('pred_for_task.csv', index_col='FileName')<br>
	X_test = data.drop('Label', axis=1)<br>
	X_test = pca.transform(X_test)<br>
	y_test = data['Label']<br>
	y_pred = clf.predict(X_test)<br>
	print("T4:", clf.predict_proba([X_test[D_TARGETFILE-1]])[0][D_TARGETVAL])<br>
	</code>
	</p>