rmitula · July 28, 2023 07:27 · rmitula · Mar 13, 2024 · mcanerim · Mar 13, 2024
diff --git a/job.py b/job.py
 import sys
 from awsglue.transforms import *
 from awsglue.utils import getResolvedOptions
 from pyspark.context import SparkContext
 from awsglue.context import GlueContext
 from awsglue.job import Job

 # Initialize Spark and Glue context
 sc = SparkContext()
 glueContext = GlueContext(sc)
 spark = glueContext.spark_session

 # Retrieve and initialize job parameters
 args = getResolvedOptions(sys.argv, ["JOB_NAME"])
 job = Job(glueContext)
 job.init(args["JOB_NAME"], args)

 # Define catalog, schema, and table name
 database_name = "apache_iceberg_showcase"
 table_name = "products"

 # Define Change Data Capture settings
 changelog_table_name = "products_changelog"
 identifier_columns = "product_id"
 start_snapshot_id = "8355263591683472575" # Value based on example
 end_snapshot_id = "4192901519627873695" # Value based on example

 spark.sql(f"""
    CALL glue_catalog.system.create_changelog_view(
        table => '{database_name}.{table_name}',
        options => map(
            'start-snapshot-id', '{start_snapshot_id}',
            'end-snapshot-id', '{end_snapshot_id}'
        ),
        changelog_view => '{changelog_table_name}',
        compute_updates => true,
        identifier_columns => array('{identifier_columns}')
    )
 """)

 changelog_df = spark.sql(f"SELECT * FROM {changelog_table_name}")

 changelog_df.write \
    .option("path", f"s3:///curated-zone/{changelog_table_name}") \
    .mode("append") \
    .saveAsTable(f"{database_name}.{changelog_table_name}")

 job.commit()
	import sys
	from awsglue.transforms import *
	from awsglue.utils import getResolvedOptions
	from pyspark.context import SparkContext
	from awsglue.context import GlueContext
	from awsglue.job import Job

	# Initialize Spark and Glue context
	sc = SparkContext()
	glueContext = GlueContext(sc)
	spark = glueContext.spark_session

	# Retrieve and initialize job parameters
	args = getResolvedOptions(sys.argv, ["JOB_NAME"])
	job = Job(glueContext)
	job.init(args["JOB_NAME"], args)

	# Define catalog, schema, and table name
	database_name = "apache_iceberg_showcase"
	table_name = "products"

	# Define Change Data Capture settings
	changelog_table_name = "products_changelog"
	identifier_columns = "product_id"
	start_snapshot_id = "8355263591683472575" # Value based on example
	end_snapshot_id = "4192901519627873695" # Value based on example

	spark.sql(f"""
	CALL glue_catalog.system.create_changelog_view(
	table => '{database_name}.{table_name}',
	options => map(
	'start-snapshot-id', '{start_snapshot_id}',
	'end-snapshot-id', '{end_snapshot_id}'
	),
	changelog_view => '{changelog_table_name}',
	compute_updates => true,
	identifier_columns => array('{identifier_columns}')
	)
	""")

	changelog_df = spark.sql(f"SELECT * FROM {changelog_table_name}")

	changelog_df.write \
	.option("path", f"s3:///curated-zone/{changelog_table_name}") \
	.mode("append") \
	.saveAsTable(f"{database_name}.{changelog_table_name}")

	job.commit()