alonsoir · February 22, 2017 09:26 · alonsoir · Feb 22, 2017
diff --git a/gistfile1.txt b/gistfile1.txt
 // mydf.count()
 // 63385686 

 val mydf = sqlContext.read.parquet("ParaMarina/sensEnriched.parquet")

 mydf.cache

 val r = scala.util.Random

 import org.apache.spark.sql.functions.udf

 val accum = sc.accumulator(1)

 def myNextPositiveNumber():String = {
 	accum+=1
    accum.value.toString.concat("D")
 }

 val myFunction = udf(myNextPositiveNumber _)

 val myNewDF = mydf.withColumn("myNewColumn",lit(myNextPositiveNumber))

 myNewDF.saveAsParquetFile("ParaMarina/newSensEnriched.parquet")

 myNewDF.select("myNewColumn").count

 // 63385686
	// mydf.count()
	// 63385686

	val mydf = sqlContext.read.parquet("ParaMarina/sensEnriched.parquet")

	mydf.cache

	val r = scala.util.Random

	import org.apache.spark.sql.functions.udf

	val accum = sc.accumulator(1)

	def myNextPositiveNumber():String = {
	accum+=1
	accum.value.toString.concat("D")
	}

	val myFunction = udf(myNextPositiveNumber _)

	val myNewDF = mydf.withColumn("myNewColumn",lit(myNextPositiveNumber))

	myNewDF.saveAsParquetFile("ParaMarina/newSensEnriched.parquet")

	myNewDF.select("myNewColumn").count

	// 63385686
No results found