datapolitan · March 7, 2023 03:23
diff --git a/rf_iris.py b/rf_iris.py
 from sklearn.datasets import load_iris
 from sklearn.ensemble import RandomForestClassifier
 import pandas as pd
 import numpy as np

 iris = load_iris()
 df = pd.DataFrame(iris.data, columns=iris.feature_names)
 df['is_train'] = np.random.uniform(0, 1, len(df)) <= .75
 df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names) #change from pd.Factor(), which has been deprecated
 df.head()

 train, test = df[df['is_train']==True], df[df['is_train']==False]

 features = df.columns[:4]
 clf = RandomForestClassifier(n_jobs=2)
 y, _ = pd.factorize(train['species'])
 clf.fit(train[features], y)

 preds = iris.target_names[clf.predict(test[features])]
 pd.crosstab(test['species'], preds, rownames=['actual'], colnames=['preds'])
	from sklearn.datasets import load_iris
	from sklearn.ensemble import RandomForestClassifier
	import pandas as pd
	import numpy as np

	iris = load_iris()
	df = pd.DataFrame(iris.data, columns=iris.feature_names)
	df['is_train'] = np.random.uniform(0, 1, len(df)) <= .75
	df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names) #change from pd.Factor(), which has been deprecated
	df.head()

	train, test = df[df['is_train']==True], df[df['is_train']==False]

	features = df.columns[:4]
	clf = RandomForestClassifier(n_jobs=2)
	y, _ = pd.factorize(train['species'])
	clf.fit(train[features], y)

	preds = iris.target_names[clf.predict(test[features])]
	pd.crosstab(test['species'], preds, rownames=['actual'], colnames=['preds'])