habedi · January 17, 2022 09:38
diff --git a/MyNotebook.py b/MyNotebook.py
 # Loading PySpark modules

 from pyspark.sql import DataFrame
 from pyspark.sql.types import *

 #from pyspark.context import SparkContext
 #from pyspark.sql.session import SparkSession

 # sc = SparkContext('local')
 # spark = SparkSession(sc)

 # Defining a schema for 'badges' table
 badges_schema = StructType([StructField('UserId', IntegerType(), False),
                            StructField('Name', StringType(), False),
                            StructField('Date', TimestampType(), False),
                            StructField('Class', IntegerType(), False)])
                            
 source_file_name = "/FileStore/tables/badges_csv.gz"
 df = spark.read.csv(source_file_name, sep="\t", header=True, schema=badges_schema)

 # Saving the df as a parquet file on DBFS
 table_name = "badges"
 df.write.format("parquet").option("parquet.enable.dictionary", "true") \
        .option("parquet.page.write-checksum.enabled", "false").mode('overwrite') \
        .saveAsTable(table_name)
	# Loading PySpark modules

	from pyspark.sql import DataFrame
	from pyspark.sql.types import *

	#from pyspark.context import SparkContext
	#from pyspark.sql.session import SparkSession

	# sc = SparkContext('local')
	# spark = SparkSession(sc)

	# Defining a schema for 'badges' table
	badges_schema = StructType([StructField('UserId', IntegerType(), False),
	StructField('Name', StringType(), False),
	StructField('Date', TimestampType(), False),
	StructField('Class', IntegerType(), False)])

	source_file_name = "/FileStore/tables/badges_csv.gz"
	df = spark.read.csv(source_file_name, sep="\t", header=True, schema=badges_schema)

	# Saving the df as a parquet file on DBFS
	table_name = "badges"
	df.write.format("parquet").option("parquet.enable.dictionary", "true") \
	.option("parquet.page.write-checksum.enabled", "false").mode('overwrite') \
	.saveAsTable(table_name)