xtrmstep · January 26, 2023 11:49 · vibhabellutagi19 · May 22, 2024 · xtrmstep · May 22, 2024
diff --git a/get_spark_dataframe_size.py b/get_spark_dataframe_size.py
 files = [
  "file://path"
 ]
 df = spark.read.json(files)
 catalyst_plan = df._jdf.queryExecution().logical()
 df_size_read = spark._jsparkSession.sessionState().executePlan(catalyst_plan).optimizedPlan().stats().sizeInBytes()
	files = [
	"file://path"
	]
	df = spark.read.json(files)
	catalyst_plan = df._jdf.queryExecution().logical()
	df_size_read = spark._jsparkSession.sessionState().executePlan(catalyst_plan).optimizedPlan().stats().sizeInBytes()