jakechen · October 5, 2021 03:40 · angadsingh · Jun 26, 2020
diff --git a/spark_s3_dataframe_gdelt.py b/spark_s3_dataframe_gdelt.py
 # Example uses GDELT dataset found here: https://aws.amazon.com/public-datasets/gdelt/
 # Column headers found here: http://gdeltproject.org/data/lookups/CSV.header.dailyupdates.txt

 # Load RDD
 lines = sc.textFile("s3://gdelt-open-data/events/2016*") # Loads 73,385,698 records from 2016
 # Split lines into columns; change split() argument depending on deliminiter e.g. '\t'
 parts = lines.map(lambda l: l.split('\t'))
 # Convert RDD into DataFrame
 from urllib import urlopen
 html = urlopen("http://gdeltproject.org/data/lookups/CSV.header.dailyupdates.txt").read().rstrip()
 columns = html.split('\t')
 df = spark.createDataFrame(parts, columns)
diff --git a/spark_s3_dataframe_iris.py b/spark_s3_dataframe_iris.py
 # Loads RDD
 lines = sc.textFile("s3://jakechenaws/tutorials/sample_data/iris/iris.csv")
 # Split lines into columns; change split() argument depending on deliminiter e.g. '\t'
 parts = lines.map(lambda l: l.split(','))
 # Convert RDD into DataFrame
 df = spark.createDataFrame(parts, ['sepal_length','sepal_width','petal_length','petal_width','class'])
	# Example uses GDELT dataset found here: https://aws.amazon.com/public-datasets/gdelt/
	# Column headers found here: http://gdeltproject.org/data/lookups/CSV.header.dailyupdates.txt

	# Load RDD
	lines = sc.textFile("s3://gdelt-open-data/events/2016*") # Loads 73,385,698 records from 2016
	# Split lines into columns; change split() argument depending on deliminiter e.g. '\t'
	parts = lines.map(lambda l: l.split('\t'))
	# Convert RDD into DataFrame
	from urllib import urlopen
	html = urlopen("http://gdeltproject.org/data/lookups/CSV.header.dailyupdates.txt").read().rstrip()
	columns = html.split('\t')
	df = spark.createDataFrame(parts, columns)
	# Loads RDD
	lines = sc.textFile("s3://jakechenaws/tutorials/sample_data/iris/iris.csv")
	# Split lines into columns; change split() argument depending on deliminiter e.g. '\t'
	parts = lines.map(lambda l: l.split(','))
	# Convert RDD into DataFrame
	df = spark.createDataFrame(parts, ['sepal_length','sepal_width','petal_length','petal_width','class'])