saswata-dutta · March 26, 2023 06:49
diff --git a/spark_approx_percentile.scala b/spark_approx_percentile.scala
 val a_s = Seq.fill(9)("a" -> 1):+ ("a" -> 10)
 // a_s: Seq[(String, Int)] = List((a,1), (a,1), (a,1), (a,1), (a,1), (a,1), (a,1), (a,1), (a,1), (a,10))

 val b_s = Seq.fill(9)("b" -> 2):+ ("b" -> 10)
 // b_s: Seq[(String, Int)] = List((b,2), (b,2), (b,2), (b,2), (b,2), (b,2), (b,2), (b,2), (b,2), (b,10))

 val df = (a_s ++ b_s).toDF("kind", "value")
 // df: org.apache.spark.sql.DataFrame = [kind: string, value: int]

 df.groupBy("kind").agg(expr("approx_percentile(value, 0.90, 20)").as("x_percentile")).show
 """
 +----+------------+
 |kind|x_percentile|
 +----+------------+
 |   a|           1|
 |   b|           2|
 +----+------------+
 """

 // https://spark.apache.org/docs/latest/api/sql/index.html#approx_percentile
	val a_s = Seq.fill(9)("a" -> 1):+ ("a" -> 10)
	// a_s: Seq[(String, Int)] = List((a,1), (a,1), (a,1), (a,1), (a,1), (a,1), (a,1), (a,1), (a,1), (a,10))

	val b_s = Seq.fill(9)("b" -> 2):+ ("b" -> 10)
	// b_s: Seq[(String, Int)] = List((b,2), (b,2), (b,2), (b,2), (b,2), (b,2), (b,2), (b,2), (b,2), (b,10))

	val df = (a_s ++ b_s).toDF("kind", "value")
	// df: org.apache.spark.sql.DataFrame = [kind: string, value: int]

	df.groupBy("kind").agg(expr("approx_percentile(value, 0.90, 20)").as("x_percentile")).show
	"""
	+----+------------+
	\|kind\|x_percentile\|
	+----+------------+
	\| a\| 1\|
	\| b\| 2\|
	+----+------------+
	"""

	// https://spark.apache.org/docs/latest/api/sql/index.html#approx_percentile