fhoering · December 17, 2018 17:51 · archenroot · May 8, 2019 · archenroot · May 8, 2019
diff --git a/startup.py b/startup.py
 import os
 import sys
 import numpy as np
 from pyspark import SparkConf, SparkContext
 
 def create_spark_context():
    pex_file = os.path.basename([path for path in sys.path if path.endswith('.pex')][0])
    conf = SparkConf() \
        .setMaster("yarn") \
        .set("spark.submit.deployMode", "client") \
        .set("spark.yarn.dist.files", pex_file) \
        .set("spark.executorEnv.PEX_ROOT", "./.pex")
    os.environ['PYSPARK_PYTHON'] = "./" + pex_file
    return SparkContext(conf=conf)
 
 if __name__== "__main__":
    sc = create_spark_context()
    rdd = sc.parallelize([np.array([1,2,3]), np.array([1,2,3])], numSlices=2)
    print(rdd.reduce(lambda x,y: np.dot(x,y)))
    sys.exit(0)
	import os
	import sys
	import numpy as np
	from pyspark import SparkConf, SparkContext

	def create_spark_context():
	pex_file = os.path.basename([path for path in sys.path if path.endswith('.pex')][0])
	conf = SparkConf() \
	.setMaster("yarn") \
	.set("spark.submit.deployMode", "client") \
	.set("spark.yarn.dist.files", pex_file) \
	.set("spark.executorEnv.PEX_ROOT", "./.pex")
	os.environ['PYSPARK_PYTHON'] = "./" + pex_file
	return SparkContext(conf=conf)

	if __name__== "__main__":
	sc = create_spark_context()
	rdd = sc.parallelize([np.array([1,2,3]), np.array([1,2,3])], numSlices=2)
	print(rdd.reduce(lambda x,y: np.dot(x,y)))
	sys.exit(0)