64lines · March 6, 2019 15:06
diff --git a/createDataFrame.py b/createDataFrame.py
 from pyspark.sql import SparkSession
 spark = SparkSession.builder.master("local").appName("rel subject").getOrCreate()

 columns = ['id', 'referringUrl']

 vals = [
    (1, 'http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html'),
    (2, 'https://stackoverflow.com/questions/33224740/best-way-to-get-the-max-value-in-a-spark-dataframe-column'),
    (3, 'https://datascience.stackexchange.com/questions/11284/key-parameter-in-max-function-in-pyspark'),
 ]
 df = spark.createDataFrame(vals, columns)
 df.show()
	from pyspark.sql import SparkSession
	spark = SparkSession.builder.master("local").appName("rel subject").getOrCreate()

	columns = ['id', 'referringUrl']

	vals = [
	(1, 'http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html'),
	(2, 'https://stackoverflow.com/questions/33224740/best-way-to-get-the-max-value-in-a-spark-dataframe-column'),
	(3, 'https://datascience.stackexchange.com/questions/11284/key-parameter-in-max-function-in-pyspark'),
	]
	df = spark.createDataFrame(vals, columns)
	df.show()