mvonthron · November 8, 2017 15:37 · vontman · May 31, 2020
diff --git a/Main.scala b/Main.scala
 import java.sql.Timestamp
 import java.util.UUID

 import org.apache.spark.SparkConf
 import org.apache.spark.scheduler.{SparkListener, SparkListenerStageCompleted}
 import org.apache.spark.sql.functions.{col, lit}
 import org.apache.spark.sql.sources.Or
 import org.apache.spark.sql.types._
 import org.apache.spark.sql.{DataFrame, Row, SparkSession}
 import org.joda.time.DateTime

 import scala.collection.JavaConverters._
 import scala.util.{Failure, Success, Try}

 case class Scenario(name: String, filter: DataFrame => DataFrame)

 case class TestResult(name: String, resultSize: Long, elapsedTime: Long, recordsRead: Long, bytesRead: Long)

 class TestListener() extends SparkListener {
  var totalRecordRead: Long = 0
  var totalBytesRead: Long = 0

  override def onStageCompleted(stageCompleted: SparkListenerStageCompleted): Unit = {
    val (records, bytes) = (stageCompleted.stageInfo.taskMetrics.inputMetrics.recordsRead, stageCompleted.stageInfo.taskMetrics.inputMetrics.bytesRead)
    totalRecordRead += records
    totalBytesRead += bytes
  }

  def clear() = {
    totalRecordRead = 0
    totalBytesRead = 0
  }
 }

 object Main extends App {
  val id = UUID.randomUUID
  val Jan = new Timestamp(DateTime.parse("2017-01-01T00:00:00Z").getMillis)
  val Feb = new Timestamp(DateTime.parse("2017-02-01T00:00:00Z").getMillis)
  val Mar = new Timestamp(DateTime.parse("2017-03-01T00:00:00Z").getMillis)

 //  val Jan = DateTime.parse("2017-01-01T00:00:00Z").getMillis
 //  val Feb = DateTime.parse("2017-02-01T00:00:00Z").getMillis
 //  val Mar = DateTime.parse("2017-03-01T00:00:00Z").getMillis

  val scenarios = Seq(
    Scenario("No filter", identity),
    Scenario("Filter on INT", _.filter(col("int_col") >= 2)),
    Scenario("Filter on non null INT", _.filter(col("int_null_col").isNotNull)),
    Scenario("Filter on BOOL", _.filter(col("bool_col") =!= false)),
    Scenario("Filter on == LONG", _.filter(col("long_col") === 1)),
    Scenario("Filter on <= LONG", _.filter(col("long_col") <= 2)),
    Scenario("Filter on == DOUBLE", _.filter(col("double_col") === 1.0)),
    Scenario("Filter on == FLOAT", _.filter(col("float_col") === 1.0.asInstanceOf[Float])),
    Scenario("Filter on STRING", _.filter(col("string_col") === "event 1")),
    Scenario("Filter isIn STRING", _.filter(col("string_col").isin("event 1", "event 2"))),
    Scenario("Filter == OR STRING ", _.filter( col("string_col") === "event 1" || col("string_col") === "event 2") ),
    Scenario("Filter on non null STRING", _.filter(col("string_null_col").isNotNull)),
    Scenario("Filter on >= TS", _.filter(col("timestamp_col") >= Feb)),
    Scenario("Filter on == TS", _.filter(col("timestamp_col") === Feb)),
    Scenario("Filter on == casted TS", _.filter(col("timestamp_col").cast(LongType) === Feb.getTime)),
    Scenario("Filter on missing column", _.withColumn("doesntexist", lit(0)).filter(col("doesntexist") === 2)),
    Scenario("Filter on nested col INT", _.filter(col("nested.int_col") === 2)),
    Scenario("Filter on dotted col INT", _.filter(col("`dotted.int_col`") === 2)),
    Scenario("Column projection", _.select(col("int_col"))),
    Scenario("Select constant", _.select(lit("foo").as("bar")))
  )

  val conf = new SparkConf()
    .set("spark.master", "local[4]")
    .set("spark.app.name", "PredicatePushdownTest")
    .set("spark.sql.parquet.filterPushdown", "true")
    .set("spark.sql.parquet.mergeSchema", "false")
 //    .set("spark.sql.parquet.int96AsTimestamp", "false")
 //    .set("spark.sql.parquet.int64AsTimestampMillis", "true") // <- when set true, statistics are filled but still not used
    .set("parquet.filter.statistics.enabled", "true")
    .set("parquet.filter.dictionary.enabled", "true")

  val sparkSession = SparkSession.builder().config(conf).getOrCreate()
  sparkSession.sparkContext.setLogLevel("WARN")
  println(s"TESTING SPARK VERSION ${sparkSession.version}")

  val schema = StructType(
    Seq(
      StructField("id", IntegerType),
      StructField("string_col", StringType),
      StructField("string_null_col", StringType),
      StructField("timestamp_col", DataTypes.TimestampType),
      StructField("int_col", IntegerType),
      StructField("int_null_col", IntegerType),
      StructField("double_col", DoubleType),
      StructField("long_col", LongType),
      StructField("float_col", DataTypes.FloatType),
      StructField("bool_col", BooleanType),
      StructField("nested", StructType(Seq(StructField("int_col", IntegerType)))),
      StructField("dotted.int_col", IntegerType)
    )
  )

  val rows = Seq(
    Row(1, "event 1", "event 1", Jan, 1, 1, 1.asInstanceOf[Double], 1.asInstanceOf[Long], 1.0.asInstanceOf[Float], true, Row(1), 1),
    Row(2, "event 2", "event 2", Feb, 2, 2, 2.asInstanceOf[Double], 2.asInstanceOf[Long], 2.0.asInstanceOf[Float], true, Row(2), 2),
    Row(3, "event 3", null,      Mar, 3, null, 3.asInstanceOf[Double], 3.asInstanceOf[Long], 3.0.asInstanceOf[Float], false, Row(3), 3)
  )

  val initDf = sparkSession.createDataFrame(rows.asJava, schema)
  initDf.show()

  // partition by a non-tested column to force one record per files (to avoid row-grouping)
  initDf.write.partitionBy("id").parquet(s"/tmp/restitution/test-$id")

  var testResults = Seq.empty[TestResult]

  val listener = new TestListener()
  sparkSession.sparkContext.addSparkListener(listener)

  for(sc <- scenarios) {
    sparkSession.sqlContext.clearCache()
    listener.clear()

    val start = System.currentTimeMillis()

    val in = sparkSession.read.parquet(s"/tmp/restitution/test-$id")
    Try {
      val df = sc.filter(in)
      df.explain()
      df.collect().length
    } match {
      case Success(n) =>
        val stop = System.currentTimeMillis()
        testResults :+= TestResult(sc.name, n, stop-start, listener.totalRecordRead, listener.totalBytesRead)

      case Failure(e) =>
        println(e)
    }

 //    scala.io.StdIn.readLine()
  }

  printResults(testResults)
  println(s"END TESTS SPARK ${sparkSession.version}")

  sparkSession.stop()

  def printResults(testResults: Seq[TestResult]) = {
    println("TEST RESULTS:")
    println("----------------------------------+-----------+------------------+------------------+-----------------")
    printf("   %-30s |  %8s |   %14s |   %14s |   %14s \n", "Name", "#rows", "duration (ms)", "#records read", "bytes read")
    println("----------------------------------+-----------+------------------+------------------+-----------------")
    testResults.foreach{ r =>
      printf("%s %-30s |  %8s |   %14s |   %14s |   %14s \n", if(rows.size != r.recordsRead) "->" else "  ", r.name, r.resultSize.toString, r.elapsedTime.toString, r.recordsRead.toString, r.bytesRead.toString)
    }
    println("----------------------------------+-----------+------------------+------------------+-----------------")
  }
 }
diff --git a/Results.md b/Results.md
	import java.sql.Timestamp
	import java.util.UUID

	import org.apache.spark.SparkConf
	import org.apache.spark.scheduler.{SparkListener, SparkListenerStageCompleted}
	import org.apache.spark.sql.functions.{col, lit}
	import org.apache.spark.sql.sources.Or
	import org.apache.spark.sql.types._
	import org.apache.spark.sql.{DataFrame, Row, SparkSession}
	import org.joda.time.DateTime

	import scala.collection.JavaConverters._
	import scala.util.{Failure, Success, Try}

	case class Scenario(name: String, filter: DataFrame => DataFrame)

	case class TestResult(name: String, resultSize: Long, elapsedTime: Long, recordsRead: Long, bytesRead: Long)

	class TestListener() extends SparkListener {
	var totalRecordRead: Long = 0
	var totalBytesRead: Long = 0

	override def onStageCompleted(stageCompleted: SparkListenerStageCompleted): Unit = {
	val (records, bytes) = (stageCompleted.stageInfo.taskMetrics.inputMetrics.recordsRead, stageCompleted.stageInfo.taskMetrics.inputMetrics.bytesRead)
	totalRecordRead += records
	totalBytesRead += bytes
	}

	def clear() = {
	totalRecordRead = 0
	totalBytesRead = 0
	}
	}

	object Main extends App {
	val id = UUID.randomUUID
	val Jan = new Timestamp(DateTime.parse("2017-01-01T00:00:00Z").getMillis)
	val Feb = new Timestamp(DateTime.parse("2017-02-01T00:00:00Z").getMillis)
	val Mar = new Timestamp(DateTime.parse("2017-03-01T00:00:00Z").getMillis)

	// val Jan = DateTime.parse("2017-01-01T00:00:00Z").getMillis
	// val Feb = DateTime.parse("2017-02-01T00:00:00Z").getMillis
	// val Mar = DateTime.parse("2017-03-01T00:00:00Z").getMillis

	val scenarios = Seq(
	Scenario("No filter", identity),
	Scenario("Filter on INT", _.filter(col("int_col") >= 2)),
	Scenario("Filter on non null INT", _.filter(col("int_null_col").isNotNull)),
	Scenario("Filter on BOOL", _.filter(col("bool_col") =!= false)),
	Scenario("Filter on == LONG", _.filter(col("long_col") === 1)),
	Scenario("Filter on <= LONG", _.filter(col("long_col") <= 2)),
	Scenario("Filter on == DOUBLE", _.filter(col("double_col") === 1.0)),
	Scenario("Filter on == FLOAT", _.filter(col("float_col") === 1.0.asInstanceOf[Float])),
	Scenario("Filter on STRING", _.filter(col("string_col") === "event 1")),
	Scenario("Filter isIn STRING", _.filter(col("string_col").isin("event 1", "event 2"))),
	Scenario("Filter == OR STRING ", _.filter( col("string_col") === "event 1" \|\| col("string_col") === "event 2") ),
	Scenario("Filter on non null STRING", _.filter(col("string_null_col").isNotNull)),
	Scenario("Filter on >= TS", _.filter(col("timestamp_col") >= Feb)),
	Scenario("Filter on == TS", _.filter(col("timestamp_col") === Feb)),
	Scenario("Filter on == casted TS", _.filter(col("timestamp_col").cast(LongType) === Feb.getTime)),
	Scenario("Filter on missing column", _.withColumn("doesntexist", lit(0)).filter(col("doesntexist") === 2)),
	Scenario("Filter on nested col INT", _.filter(col("nested.int_col") === 2)),
	Scenario("Filter on dotted col INT", _.filter(col("`dotted.int_col`") === 2)),
	Scenario("Column projection", _.select(col("int_col"))),
	Scenario("Select constant", _.select(lit("foo").as("bar")))
	)

	val conf = new SparkConf()
	.set("spark.master", "local[4]")
	.set("spark.app.name", "PredicatePushdownTest")
	.set("spark.sql.parquet.filterPushdown", "true")
	.set("spark.sql.parquet.mergeSchema", "false")
	// .set("spark.sql.parquet.int96AsTimestamp", "false")
	// .set("spark.sql.parquet.int64AsTimestampMillis", "true") // <- when set true, statistics are filled but still not used
	.set("parquet.filter.statistics.enabled", "true")
	.set("parquet.filter.dictionary.enabled", "true")

	val sparkSession = SparkSession.builder().config(conf).getOrCreate()
	sparkSession.sparkContext.setLogLevel("WARN")
	println(s"TESTING SPARK VERSION ${sparkSession.version}")

	val schema = StructType(
	Seq(
	StructField("id", IntegerType),
	StructField("string_col", StringType),
	StructField("string_null_col", StringType),
	StructField("timestamp_col", DataTypes.TimestampType),
	StructField("int_col", IntegerType),
	StructField("int_null_col", IntegerType),
	StructField("double_col", DoubleType),
	StructField("long_col", LongType),
	StructField("float_col", DataTypes.FloatType),
	StructField("bool_col", BooleanType),
	StructField("nested", StructType(Seq(StructField("int_col", IntegerType)))),
	StructField("dotted.int_col", IntegerType)
	)
	)

	val rows = Seq(
	Row(1, "event 1", "event 1", Jan, 1, 1, 1.asInstanceOf[Double], 1.asInstanceOf[Long], 1.0.asInstanceOf[Float], true, Row(1), 1),
	Row(2, "event 2", "event 2", Feb, 2, 2, 2.asInstanceOf[Double], 2.asInstanceOf[Long], 2.0.asInstanceOf[Float], true, Row(2), 2),
	Row(3, "event 3", null, Mar, 3, null, 3.asInstanceOf[Double], 3.asInstanceOf[Long], 3.0.asInstanceOf[Float], false, Row(3), 3)
	)

	val initDf = sparkSession.createDataFrame(rows.asJava, schema)
	initDf.show()

	// partition by a non-tested column to force one record per files (to avoid row-grouping)
	initDf.write.partitionBy("id").parquet(s"/tmp/restitution/test-$id")

	var testResults = Seq.empty[TestResult]

	val listener = new TestListener()
	sparkSession.sparkContext.addSparkListener(listener)

	for(sc <- scenarios) {
	sparkSession.sqlContext.clearCache()
	listener.clear()

	val start = System.currentTimeMillis()

	val in = sparkSession.read.parquet(s"/tmp/restitution/test-$id")
	Try {
	val df = sc.filter(in)
	df.explain()
	df.collect().length
	} match {
	case Success(n) =>
	val stop = System.currentTimeMillis()
	testResults :+= TestResult(sc.name, n, stop-start, listener.totalRecordRead, listener.totalBytesRead)

	case Failure(e) =>
	println(e)
	}

	// scala.io.StdIn.readLine()
	}

	printResults(testResults)
	println(s"END TESTS SPARK ${sparkSession.version}")

	sparkSession.stop()

	def printResults(testResults: Seq[TestResult]) = {
	println("TEST RESULTS:")
	println("----------------------------------+-----------+------------------+------------------+-----------------")
	printf(" %-30s \| %8s \| %14s \| %14s \| %14s \n", "Name", "#rows", "duration (ms)", "#records read", "bytes read")
	println("----------------------------------+-----------+------------------+------------------+-----------------")
	testResults.foreach{ r =>
	printf("%s %-30s \| %8s \| %14s \| %14s \| %14s \n", if(rows.size != r.recordsRead) "->" else " ", r.name, r.resultSize.toString, r.elapsedTime.toString, r.recordsRead.toString, r.bytesRead.toString)
	}
	println("----------------------------------+-----------+------------------+------------------+-----------------")
	}
	}