jaredwinick · April 21, 2020 10:44
diff --git a/README.md b/README.md
diff --git a/paragraph1.scala b/paragraph1.scala
 import org.apache.spark.mllib.linalg.Vectors

 case class TestClass(features: org.apache.spark.mllib.linalg.Vector)
 val df = sqlContext.createDataFrame(
    List(
        TestClass(Vectors.sparse(4, Seq((0, 1.0), (2, 1.0)))), 
        TestClass(Vectors.sparse(4, Seq((1, 1.0), (2, 1.0))))))
 z.put("df", df)
diff --git a/paragraph2.py b/paragraph2.py
 %pyspark

 import numpy as np
 from pyspark.sql import DataFrame

 df = DataFrame(z.get("df"), sqlContext)
 data = df.rdd.map(lambda row: row["features"].toArray()).collect()
 npdata = np.array(data)
 print np.shape(npdata)
 print npdata
	import org.apache.spark.mllib.linalg.Vectors

	case class TestClass(features: org.apache.spark.mllib.linalg.Vector)
	val df = sqlContext.createDataFrame(
	List(
	TestClass(Vectors.sparse(4, Seq((0, 1.0), (2, 1.0)))),
	TestClass(Vectors.sparse(4, Seq((1, 1.0), (2, 1.0))))))
	z.put("df", df)
	%pyspark

	import numpy as np
	from pyspark.sql import DataFrame

	df = DataFrame(z.get("df"), sqlContext)
	data = df.rdd.map(lambda row: row["features"].toArray()).collect()
	npdata = np.array(data)
	print np.shape(npdata)
	print npdata