saswata-dutta · July 23, 2020 11:43
diff --git a/spark-get-max-row.scala b/spark-get-max-row.scala
 scala> val values = Seq((1, "a",1), (1, "b",2), (2, "c", 2), (3, "d",1), (3, "e", 1), (3, "f",0))
 values: Seq[(Int, String, Int)] = List((1,a,1), (1,b,2), (2,c,2), (3,d,1), (3,e,1), (3,f,0))

 scala> val df = values.toDF
 df: org.apache.spark.sql.DataFrame = [_1: int, _2: string ... 1 more field]

 scala> val max_df = df.groupBy("_1").agg(max("_3").alias("_3"))
 max_df: org.apache.spark.sql.DataFrame = [_1: int, _3: int]

 scala> df.join(max_df, Seq("_1", "_3"), "leftsemi").dropDuplicates("_1", "_3").show
 +---+---+---+
 | _1| _3| _2|
 +---+---+---+
 |  3|  1|  d|
 |  2|  2|  c|
 |  1|  2|  b|
 +---+---+---+
	scala> val values = Seq((1, "a",1), (1, "b",2), (2, "c", 2), (3, "d",1), (3, "e", 1), (3, "f",0))
	values: Seq[(Int, String, Int)] = List((1,a,1), (1,b,2), (2,c,2), (3,d,1), (3,e,1), (3,f,0))

	scala> val df = values.toDF
	df: org.apache.spark.sql.DataFrame = [_1: int, _2: string ... 1 more field]

	scala> val max_df = df.groupBy("_1").agg(max("_3").alias("_3"))
	max_df: org.apache.spark.sql.DataFrame = [_1: int, _3: int]

	scala> df.join(max_df, Seq("_1", "_3"), "leftsemi").dropDuplicates("_1", "_3").show
	+---+---+---+
	\| _1\| _3\| _2\|
	+---+---+---+
	\| 3\| 1\| d\|
	\| 2\| 2\| c\|
	\| 1\| 2\| b\|
	+---+---+---+