maneeshdisodia · November 20, 2024 20:23
diff --git a/groupby_pyspark_udf_pandas_with_arguments.py b/groupby_pyspark_udf_pandas_with_arguments.py
 from pyspark.sql.functions import pandas_udf, PandasUDFType

 df = spark.createDataFrame(
    [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)],
    ("id", "v"))


 def my_function(df, by="id", column="v", value=1.0):
    schema = "{} long, {} double".format(by, column)

    #@pandas_udf(schema, PandasUDFType.GROUPED_MAP)
    def subtract_value(pdf):
        # pdf is a pandas.DataFrame
        v = pdf[column]
        g = pdf[by]
        return pdf.assign(v = v - g * value)

    return df.groupby(by).applyInPandas(subtract_value,schema)

 my_function(df, by="id", column="v", value=2.0).show()
	from pyspark.sql.functions import pandas_udf, PandasUDFType

	df = spark.createDataFrame(
	[(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)],
	("id", "v"))


	def my_function(df, by="id", column="v", value=1.0):
	schema = "{} long, {} double".format(by, column)

	#@pandas_udf(schema, PandasUDFType.GROUPED_MAP)
	def subtract_value(pdf):
	# pdf is a pandas.DataFrame
	v = pdf[column]
	g = pdf[by]
	return pdf.assign(v = v - g * value)

	return df.groupby(by).applyInPandas(subtract_value,schema)

	my_function(df, by="id", column="v", value=2.0).show()