yossisp · August 8, 2023 18:05 · psrinuhp · Aug 8, 2023 · yossisp · Aug 8, 2023
diff --git a/test_sql1.py b/test_sql1.py
 # The code below refers to the following Stackoverflow answer: https://stackoverflow.com/a/76818322/5863693

 !pip install -q pyspark==3.3.0 spark-nlp==5.0.0

 import sparknlp
 import pandas as pd
 from pyspark.sql import SparkSession
 from pyspark import SparkContext

 spark = SparkSession.builder \
   .appName("Python Spark SQL basic example") \
   .getOrCreate()


 json_data_deleted = '''
 [
    {
        "timestamp": "2023-07-01T12:00:00Z",
        "parent": "p1",
        "child": "c1",
        "status": "new"
    },
    {
        "timestamp": "2023-07-01T13:00:00Z",
        "parent": "p1",
        "child": "c1",
        "status": "existing"
    },
        {
        "timestamp": "2023-07-05T13:00:00Z",
        "parent": "p1",
        "child": "c1",
        "status": "deleted"
    }
 ]
 '''

 # Create a RDD from the JSON data
 sc = SparkContext.getOrCreate()
 rdd = sc.parallelize([json_data_deleted])

 # Read the JSON data into a DataFrame
 df_deleted = spark.read.json(rdd)

 # Show the DataFrame content
 df_deleted.show()

 df_deleted.createOrReplaceTempView("df_deleted") # correct
 # sql_results = spark.sql("SELECT name FROM people")


 sql_results = spark.sql("""
    WITH transformed_input AS (
        SELECT
            CAST(timestamp AS DATE) AS dt, 
            parent,
            child,
            status,
            transform(
                sequence(
                        0,
                        datediff(
                            cast(MAX(timestamp) OVER(PARTITION BY parent, child) AS DATE) ,
                            cast(timestamp AS DATE)
                        ) - 1
                ),
                sid -> date_add(CAST(timestamp AS DATE), sid)
            ) as dates
        FROM df_deleted
    )
    SELECT
        explode_outer(dates) AS date,
        parent,
        child
    FROM transformed_input
    WHERE status not in ('existing', 'deleted')
 """)

 sql_results.show(truncate=False)

 # result above correct
 # ------------------------------

 json_data_only_new_children = '''
 [
    {
        "timestamp": "2023-07-01T08:00:00Z",
        "parent": "p1",
        "child": "c1",
        "status": "new"
    },
    {
        "timestamp": "2023-07-09T08:00:00Z",
        "parent": "p2",
        "child": "c1",
        "status": "new"
    }
 ]
 '''

 # Create a RDD from the JSON data
 sc = SparkContext.getOrCreate()
 rdd = sc.parallelize([json_data_only_new_children])

 # Read the JSON data into a DataFrame
 df_only_new_children = spark.read.json(rdd)

 # Show the DataFrame content
 df_only_new_children.show()

 df_only_new_children.createOrReplaceTempView("df_only_new_children") # not correct


 sql_results = spark.sql("""
    WITH transformed_input AS (
        SELECT
            CAST(timestamp AS DATE) AS dt, 
            parent,
            child,
            status,
            transform(
                sequence(
                        0,
                        datediff(
                            cast(MAX(timestamp) OVER(PARTITION BY parent, child) AS DATE) ,
                            cast(timestamp AS DATE)
                        ) - 1
                ),
                sid -> date_add(CAST(timestamp AS DATE), sid)
            ) as dates
        FROM df_only_new_children
    )
    SELECT
        explode_outer(dates) AS date,
        parent,
        child
    FROM transformed_input
    WHERE status not in ('existing', 'deleted')
 """)

 sql_results.show(truncate=False)

 # result above not correct
 # +----------+------+-----+
 # |date      |parent|child|
 # +----------+------+-----+
 # |2023-07-01|p1    |c1   |
 # |2023-07-02|p2    |c1   |
 # |2023-07-03|p2    |c1   |
 # |2023-07-03|p2    |c1   |
 # .
 # .
 # .
 # |2023-08-08|p2    |c1   | (today's date)
 # ---------

 json_data_multiple_combinations = '''
 [
    {
        "timestamp": "2023-07-01T08:00:00Z",
        "parent": "p1",
        "child": "c1",
        "status": "new"
    },
    {
        "timestamp": "2023-07-02T08:00:00Z",
        "parent": "p2",
        "child": "c1",
        "status": "deleted"
    },
        {
        "timestamp": "2023-07-04T08:00:00Z",
        "parent": "p1",
        "child": "c1",
        "status": "new"
    },
    {
        "timestamp": "2023-07-05T08:00:00Z",
        "parent": "p2",
        "child": "c1",
        "status": "deleted"
    }
 ]
 '''

 # Create a RDD from the JSON data
 sc = SparkContext.getOrCreate()
 rdd = sc.parallelize([json_data_multiple_combinations])

 # Read the JSON data into a DataFrame
 df_json_data_multiple_combinations = spark.read.json(rdd)

 # Show the DataFrame content
 # df_only_new_children.show()

 df_json_data_multiple_combinations.createOrReplaceTempView("df_json_data_multiple_combinations") 


 sql_results = spark.sql("""
    WITH transformed_input AS (
        SELECT
            CAST(timestamp AS DATE) AS dt, 
            parent,
            child,
            status,
            transform(
                sequence(
                        0, -- Added below logic based git code.
                        CASE WHEN first(status) OVER(PARTITION BY parent, child order by timestamp desc) == 'existing' 
                            THEN datediff(cast(MAX(timestamp) OVER(PARTITION BY parent, child) AS DATE) ,cast(timestamp AS DATE)) 
                        WHEN first(status) OVER(PARTITION BY parent, child order by timestamp desc) == 'new'
                            THEN 0
                        ELSE 
                            datediff(
                                cast(MAX(timestamp) OVER(PARTITION BY parent, child) AS DATE) ,
                                cast(timestamp AS DATE)
                            ) - 1 
                        END
                ),
                sid -> date_add(CAST(timestamp AS DATE), sid)
            ) as dates
        FROM df_json_data_multiple_combinations
    )
    SELECT
        distinct -- to remove duplicate entries in dataset.
        explode_outer(dates) AS date,
        parent,
        child
    FROM transformed_input
    WHERE status not in ('existing', 'deleted')
 """)

 sql_results.show(truncate=False)
 # the result above is not correct
 # expected:
 # | date       | parent | child |
 # | ---------- | ------ | ----- |
 # | 2022-07-01 | p1     | c1    |
 # | 2022-07-02 | p1     | c1    |
 # | 2022-07-04 | p1     | c1    |
 # | 2023-07-05 | p1     | c1    |

 # received
 # +----------+------+-----+
 # |date      |parent|child|
 # +----------+------+-----+
 # |2023-07-04|p1    |c1   |
 # |2023-07-01|p1    |c1   |
 # +----------+------+-----+

 #------------

 json_data_only_deleted = '''
 [
    {
        "timestamp": "2023-07-11T12:00:00Z",
        "parent": "p1",
        "child": "c1",
        "status": "deleted"
    }
 ]
 '''

 # Create a RDD from the JSON data
 sc = SparkContext.getOrCreate()
 rdd = sc.parallelize([json_data_only_deleted])

 # Read the JSON data into a DataFrame
 df_only_deleted = spark.read.json(rdd)



 df_only_deleted.createOrReplaceTempView("df_only_deleted") 


 sql_results = spark.sql("""
 WITH input AS (
        SELECT
            CAST(timestamp AS DATE) AS dt, 
            parent,
            child,
            status,
            cast(MAX(timestamp) OVER(PARTITION BY parent, child) AS DATE) as max_ts,
            CASE WHEN LEAD(CAST(timestamp AS DATE), 1) OVER(PARTITION BY parent, child order by timestamp desc) IS NULL 
                 THEN CAST(timestamp AS DATE) 
                 ELSE LEAD(CAST(timestamp AS DATE), 1) OVER(PARTITION BY parent, child order by timestamp desc) 
            END as min_ts,
            row_number() OVER(PARTITION BY parent, child order by timestamp desc) as row_number
        FROM df_only_deleted
    ),
    transformed_input AS (
        SELECT 
            dt,
            parent,
            child,
            max_ts,
            min_ts,
            row_number,
            CASE WHEN dt == max_ts AND (status == 'existing' OR status == 'new') THEN datediff(current_date, min_ts)
                 WHEN dt == max_ts AND status == 'deleted'  THEN datediff(date_sub(max_ts, 1), min_ts)
            END AS new_date_diff ,
            transform(
                sequence(
                        0,
                        CASE WHEN dt == max_ts AND (status == 'existing' OR status == 'new')
                            THEN datediff(current_date, min_ts) 
                        WHEN dt == max_ts AND status == 'deleted'
                            THEN datediff(date_sub(max_ts, 1), min_ts)                        
                        END
                ),
                sid -> date_add(min_ts, sid)                              
            ) as dates 
        FROM input WHERE row_number = 1
    ) 
    SELECT 
        distinct
        explode_outer(dates) AS date,
        parent,
        child
    FROM 
    transformed_input
 """)

 sql_results.show(1000, truncate=False)
 # the result above is not correct
 # expected:
 # | date       | parent | child |
 # | ---------- | ------ | ----- |
 # | 2022-07-08 | p1     | c1    |
 # | 2022-07-09 | p1     | c1    |
 # | 2022-07-10 | p1     | c1    |
 # | 2022-07-11 | p1     | c1    |

 # received
 # +----------+------+-----+
 # |date      |parent|child|
 # +----------+------+-----+
 # |2023-07-11|p1    |c1   |
 # |2023-07-10|p1    |c1   |
 # +----------+------+-----+
	# The code below refers to the following Stackoverflow answer: https://stackoverflow.com/a/76818322/5863693

	!pip install -q pyspark==3.3.0 spark-nlp==5.0.0

	import sparknlp
	import pandas as pd
	from pyspark.sql import SparkSession
	from pyspark import SparkContext

	spark = SparkSession.builder \
	.appName("Python Spark SQL basic example") \
	.getOrCreate()


	json_data_deleted = '''
	[
	{
	"timestamp": "2023-07-01T12:00:00Z",
	"parent": "p1",
	"child": "c1",
	"status": "new"
	},
	{
	"timestamp": "2023-07-01T13:00:00Z",
	"parent": "p1",
	"child": "c1",
	"status": "existing"
	},
	{
	"timestamp": "2023-07-05T13:00:00Z",
	"parent": "p1",
	"child": "c1",
	"status": "deleted"
	}
	]
	'''

	# Create a RDD from the JSON data
	sc = SparkContext.getOrCreate()
	rdd = sc.parallelize([json_data_deleted])

	# Read the JSON data into a DataFrame
	df_deleted = spark.read.json(rdd)

	# Show the DataFrame content
	df_deleted.show()

	df_deleted.createOrReplaceTempView("df_deleted") # correct
	# sql_results = spark.sql("SELECT name FROM people")


	sql_results = spark.sql("""
	WITH transformed_input AS (
	SELECT
	CAST(timestamp AS DATE) AS dt,
	parent,
	child,
	status,
	transform(
	sequence(
	0,
	datediff(
	cast(MAX(timestamp) OVER(PARTITION BY parent, child) AS DATE) ,
	cast(timestamp AS DATE)
	) - 1
	),
	sid -> date_add(CAST(timestamp AS DATE), sid)
	) as dates
	FROM df_deleted
	)
	SELECT
	explode_outer(dates) AS date,
	parent,
	child
	FROM transformed_input
	WHERE status not in ('existing', 'deleted')
	""")

	sql_results.show(truncate=False)

	# result above correct
	# ------------------------------

	json_data_only_new_children = '''
	[
	{
	"timestamp": "2023-07-01T08:00:00Z",
	"parent": "p1",
	"child": "c1",
	"status": "new"
	},
	{
	"timestamp": "2023-07-09T08:00:00Z",
	"parent": "p2",
	"child": "c1",
	"status": "new"
	}
	]
	'''

	# Create a RDD from the JSON data
	sc = SparkContext.getOrCreate()
	rdd = sc.parallelize([json_data_only_new_children])

	# Read the JSON data into a DataFrame
	df_only_new_children = spark.read.json(rdd)

	# Show the DataFrame content
	df_only_new_children.show()

	df_only_new_children.createOrReplaceTempView("df_only_new_children") # not correct


	sql_results = spark.sql("""
	WITH transformed_input AS (
	SELECT
	CAST(timestamp AS DATE) AS dt,
	parent,
	child,
	status,
	transform(
	sequence(
	0,
	datediff(
	cast(MAX(timestamp) OVER(PARTITION BY parent, child) AS DATE) ,
	cast(timestamp AS DATE)
	) - 1
	),
	sid -> date_add(CAST(timestamp AS DATE), sid)
	) as dates
	FROM df_only_new_children
	)
	SELECT
	explode_outer(dates) AS date,
	parent,
	child
	FROM transformed_input
	WHERE status not in ('existing', 'deleted')
	""")

	sql_results.show(truncate=False)

	# result above not correct
	# +----------+------+-----+
	# \|date \|parent\|child\|
	# +----------+------+-----+
	# \|2023-07-01\|p1 \|c1 \|
	# \|2023-07-02\|p2 \|c1 \|
	# \|2023-07-03\|p2 \|c1 \|
	# \|2023-07-03\|p2 \|c1 \|
	# .
	# .
	# .
	# \|2023-08-08\|p2 \|c1 \| (today's date)
	# ---------

	json_data_multiple_combinations = '''
	[
	{
	"timestamp": "2023-07-01T08:00:00Z",
	"parent": "p1",
	"child": "c1",
	"status": "new"
	},
	{
	"timestamp": "2023-07-02T08:00:00Z",
	"parent": "p2",
	"child": "c1",
	"status": "deleted"
	},
	{
	"timestamp": "2023-07-04T08:00:00Z",
	"parent": "p1",
	"child": "c1",
	"status": "new"
	},
	{
	"timestamp": "2023-07-05T08:00:00Z",
	"parent": "p2",
	"child": "c1",
	"status": "deleted"
	}
	]
	'''

	# Create a RDD from the JSON data
	sc = SparkContext.getOrCreate()
	rdd = sc.parallelize([json_data_multiple_combinations])

	# Read the JSON data into a DataFrame
	df_json_data_multiple_combinations = spark.read.json(rdd)

	# Show the DataFrame content
	# df_only_new_children.show()

	df_json_data_multiple_combinations.createOrReplaceTempView("df_json_data_multiple_combinations")


	sql_results = spark.sql("""
	WITH transformed_input AS (
	SELECT
	CAST(timestamp AS DATE) AS dt,
	parent,
	child,
	status,
	transform(
	sequence(
	0, -- Added below logic based git code.
	CASE WHEN first(status) OVER(PARTITION BY parent, child order by timestamp desc) == 'existing'
	THEN datediff(cast(MAX(timestamp) OVER(PARTITION BY parent, child) AS DATE) ,cast(timestamp AS DATE))
	WHEN first(status) OVER(PARTITION BY parent, child order by timestamp desc) == 'new'
	THEN 0
	ELSE
	datediff(
	cast(MAX(timestamp) OVER(PARTITION BY parent, child) AS DATE) ,
	cast(timestamp AS DATE)
	) - 1
	END
	),
	sid -> date_add(CAST(timestamp AS DATE), sid)
	) as dates
	FROM df_json_data_multiple_combinations
	)
	SELECT
	distinct -- to remove duplicate entries in dataset.
	explode_outer(dates) AS date,
	parent,
	child
	FROM transformed_input
	WHERE status not in ('existing', 'deleted')
	""")

	sql_results.show(truncate=False)
	# the result above is not correct
	# expected:
	# \| date \| parent \| child \|
	# \| ---------- \| ------ \| ----- \|
	# \| 2022-07-01 \| p1 \| c1 \|
	# \| 2022-07-02 \| p1 \| c1 \|
	# \| 2022-07-04 \| p1 \| c1 \|
	# \| 2023-07-05 \| p1 \| c1 \|

	# received
	# +----------+------+-----+
	# \|date \|parent\|child\|
	# +----------+------+-----+
	# \|2023-07-04\|p1 \|c1 \|
	# \|2023-07-01\|p1 \|c1 \|
	# +----------+------+-----+

	#------------

	json_data_only_deleted = '''
	[
	{
	"timestamp": "2023-07-11T12:00:00Z",
	"parent": "p1",
	"child": "c1",
	"status": "deleted"
	}
	]
	'''

	# Create a RDD from the JSON data
	sc = SparkContext.getOrCreate()
	rdd = sc.parallelize([json_data_only_deleted])

	# Read the JSON data into a DataFrame
	df_only_deleted = spark.read.json(rdd)



	df_only_deleted.createOrReplaceTempView("df_only_deleted")


	sql_results = spark.sql("""
	WITH input AS (
	SELECT
	CAST(timestamp AS DATE) AS dt,
	parent,
	child,
	status,
	cast(MAX(timestamp) OVER(PARTITION BY parent, child) AS DATE) as max_ts,
	CASE WHEN LEAD(CAST(timestamp AS DATE), 1) OVER(PARTITION BY parent, child order by timestamp desc) IS NULL
	THEN CAST(timestamp AS DATE)
	ELSE LEAD(CAST(timestamp AS DATE), 1) OVER(PARTITION BY parent, child order by timestamp desc)
	END as min_ts,
	row_number() OVER(PARTITION BY parent, child order by timestamp desc) as row_number
	FROM df_only_deleted
	),
	transformed_input AS (
	SELECT
	dt,
	parent,
	child,
	max_ts,
	min_ts,
	row_number,
	CASE WHEN dt == max_ts AND (status == 'existing' OR status == 'new') THEN datediff(current_date, min_ts)
	WHEN dt == max_ts AND status == 'deleted' THEN datediff(date_sub(max_ts, 1), min_ts)
	END AS new_date_diff ,
	transform(
	sequence(
	0,
	CASE WHEN dt == max_ts AND (status == 'existing' OR status == 'new')
	THEN datediff(current_date, min_ts)
	WHEN dt == max_ts AND status == 'deleted'
	THEN datediff(date_sub(max_ts, 1), min_ts)
	END
	),
	sid -> date_add(min_ts, sid)
	) as dates
	FROM input WHERE row_number = 1
	)
	SELECT
	distinct
	explode_outer(dates) AS date,
	parent,
	child
	FROM
	transformed_input
	""")

	sql_results.show(1000, truncate=False)
	# the result above is not correct
	# expected:
	# \| date \| parent \| child \|
	# \| ---------- \| ------ \| ----- \|
	# \| 2022-07-08 \| p1 \| c1 \|
	# \| 2022-07-09 \| p1 \| c1 \|
	# \| 2022-07-10 \| p1 \| c1 \|
	# \| 2022-07-11 \| p1 \| c1 \|

	# received
	# +----------+------+-----+
	# \|date \|parent\|child\|
	# +----------+------+-----+
	# \|2023-07-11\|p1 \|c1 \|
	# \|2023-07-10\|p1 \|c1 \|
	# +----------+------+-----+