lildata · August 29, 2015 14:21
diff --git a/SparkDataFrameTest.scala b/SparkDataFrameTest.scala
 scala> val sqlc = new org.apache.spark.sql.SQLContext(sc)
 scala> import sqlc.implicits._ //to implicitly convert an RDD to a DataFrame
 scala> val df1 = sqlc.load("/home/....json","json")
 scala> df1.printSchema
 scala> df1.select("name").show
 scala> df1.select("name", df1("age") + 1).show
 scala> df1.filter(df1("age") > 10).show
 scala> df1.groupBy("age").count().show
	scala> val sqlc = new org.apache.spark.sql.SQLContext(sc)
	scala> import sqlc.implicits._ //to implicitly convert an RDD to a DataFrame
	scala> val df1 = sqlc.load("/home/....json","json")
	scala> df1.printSchema
	scala> df1.select("name").show
	scala> df1.select("name", df1("age") + 1).show
	scala> df1.filter(df1("age") > 10).show
	scala> df1.groupBy("age").count().show