bera5186 · December 20, 2019 08:37
diff --git a/clean_text.py b/clean_text.py
 from gensim import utils
 import gensim.parsing.preprocessing as gsp

 filters = [
           gsp.strip_tags, 
           gsp.strip_punctuation,
           gsp.strip_multiple_whitespaces,
           gsp.strip_numeric,
           gsp.remove_stopwords, 
           gsp.strip_short, 
           gsp.stem_text
 ]

 def clean_text(s):
    s = s.lower()
    s = utils.to_unicode(s)
    
    for f in filters:
        s = f(s)
    return s
	from gensim import utils
	import gensim.parsing.preprocessing as gsp

	filters = [
	gsp.strip_tags,
	gsp.strip_punctuation,
	gsp.strip_multiple_whitespaces,
	gsp.strip_numeric,
	gsp.remove_stopwords,
	gsp.strip_short,
	gsp.stem_text
	]

	def clean_text(s):
	s = s.lower()
	s = utils.to_unicode(s)

	for f in filters:
	s = f(s)
	return s