maximveksler · October 21, 2020 20:42
diff --git a/all the ways to create spark dataframe.py b/all the ways to create spark dataframe.py
 data = [
  ("a", "Alice", 34),
  ("b", "Bob", 36),
  ("c", "Charlie", 30),
 ]

 df = spark.createDataFrame(data, schema=["id", "name", "age"])
diff --git a/dict.py b/dict.py
 from pyspark.sql import Row

 data = [
  {"id": "a", "name": "Alice", "age": 34},
  {"id": "b", "name": "Bob", "age": 36},
  {"id": "c", "name": "Charlie", "age": 30},
 ]

 df = spark.createDataFrame(Row(**x) for x in data)
diff --git a/pandas.py b/pandas.py
 import pandas as pd 

 data = [['a', 'Alice', 34], ['b', 'Bob', 36], ['c', 'Charlie', 30]] 

 df = spark.createDataFrame(pd.DataFrame(data, columns = ['id', 'name', 'age']))
diff --git a/rdd.py b/rdd.py
 from pyspark.sql import Row
 l = [('a',"Alice", 33),("b", "Bob", 36),("c", "Charlie", 30)]
 rdd = sc.parallelize(l)
 rows = rdd.map(lambda x: Row(id=x[0], name=x[1], age=int(x[2])))
 df = spark.createDataFrame(rows)
diff --git a/spark.read.json.py b/spark.read.json.py
 alice = '''{"id":"a", "name": "Alice", "age":34}'''
 bob = '''{"id":"b", "name": "Bob", "age":36}'''
 charlie = '''{"id":"c", "name": "Charlie", "age":30}'''

 rdd = sc.parallelize([alice, bob, charlie])
 df = spark.read.json(rdd)
diff --git a/spark.sql.py b/spark.sql.py
 df = spark.sql("""
 select 'a' id, 'Alice' name, 34 age
 union
 select 'b', 'Bob', 36 age
 union
 select 'c', 'Charlie', 30 age
 """)
	data = [
	("a", "Alice", 34),
	("b", "Bob", 36),
	("c", "Charlie", 30),
	]

	df = spark.createDataFrame(data, schema=["id", "name", "age"])
	from pyspark.sql import Row

	data = [
	{"id": "a", "name": "Alice", "age": 34},
	{"id": "b", "name": "Bob", "age": 36},
	{"id": "c", "name": "Charlie", "age": 30},
	]

	df = spark.createDataFrame(Row(**x) for x in data)
	import pandas as pd

	data = [['a', 'Alice', 34], ['b', 'Bob', 36], ['c', 'Charlie', 30]]

	df = spark.createDataFrame(pd.DataFrame(data, columns = ['id', 'name', 'age']))
	from pyspark.sql import Row
	l = [('a',"Alice", 33),("b", "Bob", 36),("c", "Charlie", 30)]
	rdd = sc.parallelize(l)
	rows = rdd.map(lambda x: Row(id=x[0], name=x[1], age=int(x[2])))
	df = spark.createDataFrame(rows)
	alice = '''{"id":"a", "name": "Alice", "age":34}'''
	bob = '''{"id":"b", "name": "Bob", "age":36}'''
	charlie = '''{"id":"c", "name": "Charlie", "age":30}'''

	rdd = sc.parallelize([alice, bob, charlie])
	df = spark.read.json(rdd)