zouzias · October 5, 2017 14:51
diff --git a/spark_shell.scala b/spark_shell.scala

 import org.zouzias.spark.lucenerdd.LuceneRDD
 import org.zouzias.spark.lucenerdd._

 val df = spark.read.parquet("spark-lucenerdd/quora_duplicate_questions.parquet")


 val linker = {r: Row => { val tokens = r.getString(r.fieldIndex("question1")).split(" ").map(_.replaceAll("[^a-zA-Z0-9]", "")).filter(_.length > 3).mkString(" AND ")
  if (tokens.nonEmpty) s"question1:(${tokens})" else "*:*"}}
 
 
 val linkage = rdd.linkDataFrame(df, linker,1)
 linkage.take(10).map(x => (x._1.getString(3), x._2.headOption)).foreach(println)

	import org.zouzias.spark.lucenerdd.LuceneRDD
	import org.zouzias.spark.lucenerdd._

	val df = spark.read.parquet("spark-lucenerdd/quora_duplicate_questions.parquet")


	val linker = {r: Row => { val tokens = r.getString(r.fieldIndex("question1")).split(" ").map(_.replaceAll("[^a-zA-Z0-9]", "")).filter(_.length > 3).mkString(" AND ")
	if (tokens.nonEmpty) s"question1:(${tokens})" else ":"}}


	val linkage = rdd.linkDataFrame(df, linker,1)
	linkage.take(10).map(x => (x._1.getString(3), x._2.headOption)).foreach(println)