dennyglee · November 8, 2016 17:20
diff --git a/accessing_dataframe_with_vector_double_schema.py b/accessing_dataframe_with_vector_double_schema.py
 from pyspark.mllib.linalg import Vectors

 # Sample dataset 
 data = sc.parallelize([
  (0.0, [0.0, 1.0, 2.0]),
  (1.0, [1.0, 2.0, 3.0]),
  (3.0, [2.0, 3.0, 4.0]),
  (2.0, [3.0, 4.0, 5.0])
 ])

 # Load each word and create row object
 parts = data.map(lambda t: Row(label=t[0], features=Vectors.dense(t[1])))

 # Infer schema (using reflection)
 df = parts.toDF()

 # Run selectExpr
 df.selectExpr("max(label) as max_value","min(label) as min_value").show()
	from pyspark.mllib.linalg import Vectors

	# Sample dataset
	data = sc.parallelize([
	(0.0, [0.0, 1.0, 2.0]),
	(1.0, [1.0, 2.0, 3.0]),
	(3.0, [2.0, 3.0, 4.0]),
	(2.0, [3.0, 4.0, 5.0])
	])

	# Load each word and create row object
	parts = data.map(lambda t: Row(label=t[0], features=Vectors.dense(t[1])))

	# Infer schema (using reflection)
	df = parts.toDF()

	# Run selectExpr
	df.selectExpr("max(label) as max_value","min(label) as min_value").show()