Ben-Epstein · November 5, 2020 15:26
diff --git a/Load Iris Data into Spark.py b/Load Iris Data into Spark.py
 from sklearn.datasets import load_iris
 import pandas as pd
 import numpy as np

 data = load_iris()
 cols = [i.replace('(cm)','').strip().replace(' ','_') for i in data.feature_names] + ['label'] # Column name cleanup
 pdf = pd.DataFrame(np.c_[data.data, data.target], columns=cols)
 df = spark.createDataFrame(pdf)
 df.show()
	from sklearn.datasets import load_iris
	import pandas as pd
	import numpy as np

	data = load_iris()
	cols = [i.replace('(cm)','').strip().replace(' ','_') for i in data.feature_names] + ['label'] # Column name cleanup
	pdf = pd.DataFrame(np.c_[data.data, data.target], columns=cols)
	df = spark.createDataFrame(pdf)
	df.show()