itayw · January 17, 2016 19:31
diff --git a/gistfile1.txt b/gistfile1.txt
 import org.elasticsearch.spark._

 val options = Map("pushdown" -> "true", "es.nodes" -> "172.17.0.1", "es.port" -> "9200", "es.field.read.as.array.include" -> "posTimes,pos.coordinates,origDetections", "es.index.auto.create" -> "false")
 val df = sqlContext.read.format("org.elasticsearch.spark.sql")
                        .options(options).load("tracks/track")

 df.groupBy("kind").count().show()
 //df.show()
 //df.groupBy("review.user.screen_name").count().show()

 //df.printSchema()
 //sc.esRDD("reviews/scored_review")
 df.registerTempTable("esTracks")                        
 //val userCount = df.count()
 //print(userCount)

                        
diff --git a/gistfile2.txt b/gistfile2.txt
 %dep

 z.load("/jars/elasticsearch-hadoop-2.1.2.jar")
diff --git a/gistfile3.txt b/gistfile3.txt
 import org.elasticsearch.spark._

 val options = Map("pushdown" -> "true", "es.nodes" -> "172.17.0.1", "es.port" -> "9200", "es.field.read.as.array.include" -> "", "es.index.auto.create" -> "false")
 val df = sqlContext.read.format("org.elasticsearch.spark.sql")
                        .options(options).load("reviews/review")

 //df.groupBy("kind").count().show()
 //df.show()
 //df.groupBy("review.user.screen_name").count().show()

 //df.printSchema()
 //sc.esRDD("reviews/scored_review")
 df.registerTempTable("esReview")                        
 //val userCount = df.count()
 //print(userCount)
diff --git a/gistfile4.txt b/gistfile4.txt
 import org.elasticsearch.spark._
 import org.apache.spark.sql.Row

 val options = Map("pushdown" -> "true", "es.nodes" -> "172.17.0.1", "es.port" -> "9200", "es.field.read.as.array.include" -> "posTimes,pos.coordinates,origDetections", "es.index.auto.create" -> "false")
 val df = sqlContext.read.format("org.elasticsearch.spark.sql")
                        .options(options).load("tracks/track")

 df.groupBy("kind").count().show()
 val result = df.groupBy("kind").count().map {
    case Row(kind: String, count: Long) => {
        kind + "\t" + count
    }
 }.collect()
 print ("%table Kind\tcount\n" + result.mkString("\n"))
	import org.elasticsearch.spark._

	val options = Map("pushdown" -> "true", "es.nodes" -> "172.17.0.1", "es.port" -> "9200", "es.field.read.as.array.include" -> "posTimes,pos.coordinates,origDetections", "es.index.auto.create" -> "false")
	val df = sqlContext.read.format("org.elasticsearch.spark.sql")
	.options(options).load("tracks/track")

	df.groupBy("kind").count().show()
	//df.show()
	//df.groupBy("review.user.screen_name").count().show()

	//df.printSchema()
	//sc.esRDD("reviews/scored_review")
	df.registerTempTable("esTracks")
	//val userCount = df.count()
	//print(userCount)
	import org.elasticsearch.spark._
	import org.apache.spark.sql.Row

	val options = Map("pushdown" -> "true", "es.nodes" -> "172.17.0.1", "es.port" -> "9200", "es.field.read.as.array.include" -> "posTimes,pos.coordinates,origDetections", "es.index.auto.create" -> "false")
	val df = sqlContext.read.format("org.elasticsearch.spark.sql")
	.options(options).load("tracks/track")

	df.groupBy("kind").count().show()
	val result = df.groupBy("kind").count().map {
	case Row(kind: String, count: Long) => {
	kind + "\t" + count
	}
	}.collect()
	print ("%table Kind\tcount\n" + result.mkString("\n"))