nsivabalan · August 26, 2022 20:46 · guanziyue · Aug 26, 2022
diff --git a/dstream to hudi b/dstream to hudi

 import org.apache.spark._
 import org.apache.spark.streaming._
 import org.apache.spark.sql.SaveMode._

 val sc = spark.sparkContext
 val ssc = new StreamingContext(sc, Seconds(1))

 val inputPath = "/tmp/inputDir/"

 val dStream = ssc.textFileStream(inputPath)

 import org.apache.hudi.QuickstartUtils._
 import scala.collection.JavaConversions._
 import org.apache.spark.sql.SaveMode._
 import org.apache.hudi.DataSourceReadOptions._
 import org.apache.hudi.DataSourceWriteOptions._
 import org.apache.hudi.config.HoodieWriteConfig._

 val tableName = "hudi_trips_cow"
 val dataGen = new DataGenerator

 dStream.foreachRDD { rdd =>
  val batchDf = rdd.toDF()
  batchDf.write.format("hudi").
  options(getQuickstartWriteConfigs).
  option(PRECOMBINE_FIELD_OPT_KEY, "tpep_dropoff_datetime").
  option(RECORDKEY_FIELD_OPT_KEY, "tpep_pickup_datetime").
  option(PARTITIONPATH_FIELD_OPT_KEY, "VendorID").
  option(TABLE_NAME, tableName).
  mode(Append).
  save(basePath)
 }

 ssc.start()


diff --git a/dStream write to parquet b/dStream write to parquet

 import org.apache.spark._
 import org.apache.spark.streaming._
 import org.apache.spark.sql.SaveMode._

 val sc = spark.sparkContext
 val ssc = new StreamingContext(sc, Seconds(1))

 val inputPath = "/tmp/inputDir/"

 val dStream = ssc.textFileStream(inputPath)
 val basePath = "file:///tmp/parquet"

 dStream.foreachRDD { rdd =>
  val batchDf = rdd.toDF()
  batchDf.write.format("parquet").
  mode(Append).
  save(basePath)
 }

 ssc.start()






diff --git a/reading the parquet written data b/reading the parquet written data
 val df = spark.read.format("parquet").load("/tmp/parquet/")
 df: org.apache.spark.sql.DataFrame = [value: string]                            

 scala> df.printSchema
 root
 |-- value: string (nullable = true)


 scala> df.show(2, false)
 +-----+
 |value|
 +-----+
 +-----+


 scala> df.count
 res2: Long = 0

	import org.apache.spark._
	import org.apache.spark.streaming._
	import org.apache.spark.sql.SaveMode._

	val sc = spark.sparkContext
	val ssc = new StreamingContext(sc, Seconds(1))

	val inputPath = "/tmp/inputDir/"

	val dStream = ssc.textFileStream(inputPath)

	import org.apache.hudi.QuickstartUtils._
	import scala.collection.JavaConversions._
	import org.apache.spark.sql.SaveMode._
	import org.apache.hudi.DataSourceReadOptions._
	import org.apache.hudi.DataSourceWriteOptions._
	import org.apache.hudi.config.HoodieWriteConfig._

	val tableName = "hudi_trips_cow"
	val dataGen = new DataGenerator

	dStream.foreachRDD { rdd =>
	val batchDf = rdd.toDF()
	batchDf.write.format("hudi").
	options(getQuickstartWriteConfigs).
	option(PRECOMBINE_FIELD_OPT_KEY, "tpep_dropoff_datetime").
	option(RECORDKEY_FIELD_OPT_KEY, "tpep_pickup_datetime").
	option(PARTITIONPATH_FIELD_OPT_KEY, "VendorID").
	option(TABLE_NAME, tableName).
	mode(Append).
	save(basePath)
	}

	ssc.start()
	val df = spark.read.format("parquet").load("/tmp/parquet/")
	df: org.apache.spark.sql.DataFrame = [value: string]

	scala> df.printSchema
	root
	\|-- value: string (nullable = true)


	scala> df.show(2, false)
	+-----+
	\|value\|
	+-----+
	+-----+


	scala> df.count
	res2: Long = 0