trungquy · December 21, 2018 03:08
diff --git a/flatten_schema.py b/flatten_schema.py
 # source: https://stackoverflow.com/questions/37471346/automatically-and-elegantly-flatten-dataframe-in-spark-sql
 from pyspark.sql.types import StructType, ArrayType  

 def flatten(schema, prefix=None):
    fields = []
    for field in schema.fields:
        name = prefix + '.' + field.name if prefix else field.name
        dtype = field.dataType
        if isinstance(dtype, ArrayType):
            dtype = dtype.elementType

        if isinstance(dtype, StructType):
            fields += flatten(dtype, prefix=name)
        else:
            fields.append(name)

    return fields


 df.select(flatten(df.schema)).show()
	# source: https://stackoverflow.com/questions/37471346/automatically-and-elegantly-flatten-dataframe-in-spark-sql
	from pyspark.sql.types import StructType, ArrayType

	def flatten(schema, prefix=None):
	fields = []
	for field in schema.fields:
	name = prefix + '.' + field.name if prefix else field.name
	dtype = field.dataType
	if isinstance(dtype, ArrayType):
	dtype = dtype.elementType

	if isinstance(dtype, StructType):
	fields += flatten(dtype, prefix=name)
	else:
	fields.append(name)

	return fields


	df.select(flatten(df.schema)).show()
No results found