justinnaldzin · July 18, 2018 19:29 · Ezraorich · Apr 26, 2023
diff --git a/spark_dataframe_size_estimator.py b/spark_dataframe_size_estimator.py
 # Function to convert python object to Java objects
 def _to_java_object_rdd(rdd):  
    """ Return a JavaRDD of Object by unpickling
    It will convert each Python object into Java object by Pyrolite, whenever the
    RDD is serialized in batch or not.
    """
    rdd = rdd._reserialize(AutoBatchedSerializer(PickleSerializer()))
    return rdd.ctx._jvm.org.apache.spark.mllib.api.python.SerDe.pythonToJava(rdd._jrdd, True)

 # Convert DataFrame to an RDD 
 JavaObj = _to_java_object_rdd(df.rdd)

 # Estimate size in bytes
 bytes = sc._jvm.org.apache.spark.util.SizeEstimator.estimate(JavaObj)
	# Function to convert python object to Java objects
	def _to_java_object_rdd(rdd):
	""" Return a JavaRDD of Object by unpickling
	It will convert each Python object into Java object by Pyrolite, whenever the
	RDD is serialized in batch or not.
	"""
	rdd = rdd._reserialize(AutoBatchedSerializer(PickleSerializer()))
	return rdd.ctx._jvm.org.apache.spark.mllib.api.python.SerDe.pythonToJava(rdd._jrdd, True)

	# Convert DataFrame to an RDD
	JavaObj = _to_java_object_rdd(df.rdd)

	# Estimate size in bytes
	bytes = sc._jvm.org.apache.spark.util.SizeEstimator.estimate(JavaObj)