gary-liguoliang · January 24, 2018 11:56 · gary-liguoliang · Jan 24, 2018
diff --git a/spark-load-and-join-csv-files.java b/spark-load-and-join-csv-files.java
 package com.test;

 import org.apache.spark.SparkConf;
 import org.apache.spark.api.java.JavaSparkContext;
 import org.apache.spark.sql.Dataset;
 import org.apache.spark.sql.Row;
 import org.apache.spark.sql.SparkSession;

 import java.util.List;
 import java.util.regex.Pattern;

 public class SparkHello {
    private static final Pattern SPACE = Pattern.compile(" ");
    public static void main(String[] args) {
        // Define a configuration to use to interact with Spark
        SparkConf conf = new SparkConf().setMaster("local").setAppName("Work Count App");
        // Create a Java version of the Spark Context from the configuration
        JavaSparkContext sc = new JavaSparkContext(conf);


        SparkSession sparkSession = SparkSession.builder().appName("test").getOrCreate();
        Dataset<Row> left = sparkSession.read().option("header", true).csv("/tmp/side.left");
        Dataset<Row> right = sparkSession.read().option("header", true).csv("/tmp/side.right");

        Dataset<Row> j = left.join(right, "id");

        List<Row> l = j.collectAsList();

        for (Row row : l) {
            System.out.println(row.mkString());
        }

        sc.stop();
    }
 }
	package com.test;

	import org.apache.spark.SparkConf;
	import org.apache.spark.api.java.JavaSparkContext;
	import org.apache.spark.sql.Dataset;
	import org.apache.spark.sql.Row;
	import org.apache.spark.sql.SparkSession;

	import java.util.List;
	import java.util.regex.Pattern;

	public class SparkHello {
	private static final Pattern SPACE = Pattern.compile(" ");
	public static void main(String[] args) {
	// Define a configuration to use to interact with Spark
	SparkConf conf = new SparkConf().setMaster("local").setAppName("Work Count App");
	// Create a Java version of the Spark Context from the configuration
	JavaSparkContext sc = new JavaSparkContext(conf);


	SparkSession sparkSession = SparkSession.builder().appName("test").getOrCreate();
	Dataset<Row> left = sparkSession.read().option("header", true).csv("/tmp/side.left");
	Dataset<Row> right = sparkSession.read().option("header", true).csv("/tmp/side.right");

	Dataset<Row> j = left.join(right, "id");

	List<Row> l = j.collectAsList();

	for (Row row : l) {
	System.out.println(row.mkString());
	}

	sc.stop();
	}
	}