tommydangerous · May 13, 2021 17:27
diff --git a/pyspark_load_data_from_s3.py b/pyspark_load_data_from_s3.py
 from pyspark.sql import SparkSession


 def load_data(spark, s3_location):
    """
    spark:
        Spark session
    s3_location:
        S3 bucket name and object prefix
    """
    
    return (
        spark
        .read
        .options(
            delimiter=',',
            header=True,
            inferSchema=False,
        )
        .csv(s3_location)
    )


 with SparkSession.builder.appName('Mage').getOrCreate() as spark:
    # 1. Load data from S3 files
    df = load_data(spark, 's3://feature-sets/users/profiles/v1/*')
    
    # 2. Group data by 'user_id' column
    grouped = df.groupby('user_id')
    
    # 3. Apply function named 'custom_transformation_function';
    # we will define this function later in this article
    df_transformed = grouped.apply(custom_transformation_function)
	from pyspark.sql import SparkSession


	def load_data(spark, s3_location):
	"""
	spark:
	Spark session
	s3_location:
	S3 bucket name and object prefix
	"""

	return (
	spark
	.read
	.options(
	delimiter=',',
	header=True,
	inferSchema=False,
	)
	.csv(s3_location)
	)


	with SparkSession.builder.appName('Mage').getOrCreate() as spark:
	# 1. Load data from S3 files
	df = load_data(spark, 's3://feature-sets/users/profiles/v1/*')

	# 2. Group data by 'user_id' column
	grouped = df.groupby('user_id')

	# 3. Apply function named 'custom_transformation_function';
	# we will define this function later in this article
	df_transformed = grouped.apply(custom_transformation_function)
No results found