samuelsmal · October 11, 2016 14:10 · j-greer · Dec 5, 2016 · 1danjordan · May 10, 2017
diff --git a/pyspark_udf_filtering.py b/pyspark_udf_filtering.py
 from pyspark.sql.functions import udf
 from pyspark.sql.types import BooleanType

 def regex_filter(x):
    regexs = ['.*ALLYOURBASEBELONGTOUS.*']
    
    if x and x.strip():
        for r in regexs:
            if re.match(r, x, re.IGNORECASE):
                return True
    
    return False 
    
    
 filter_udf = udf(regex_filter, BooleanType())

 df_filtered = df.filter(filter_udf(df.field_to_filter_on))
	from pyspark.sql.functions import udf
	from pyspark.sql.types import BooleanType

	def regex_filter(x):
	regexs = ['.ALLYOURBASEBELONGTOUS.']

	if x and x.strip():
	for r in regexs:
	if re.match(r, x, re.IGNORECASE):
	return True

	return False


	filter_udf = udf(regex_filter, BooleanType())

	df_filtered = df.filter(filter_udf(df.field_to_filter_on))
No results found