ahmedshahriar · November 21, 2020 04:16
diff --git a/non_english_word_removal.py b/non_english_word_removal.py
 """
 @ github.com/ahmedshahriar
 This code will remove remove non-English words from text
 """
 import nltk 

 # download nltk english corpus
 nltk.download('wordnet')
 wordnet = set(nltk.corpus.wordnet.words())


 words = "love ে ী ে া ে ু ্ া োঁ ে"

 words_cleaned = " ".join(w for w in nltk.wordpunct_tokenize(words) if w.lower() in wordnet )

 print(words_cleaned)

 # output 'love'
	"""
	@ github.com/ahmedshahriar
	This code will remove remove non-English words from text
	"""
	import nltk

	# download nltk english corpus
	nltk.download('wordnet')
	wordnet = set(nltk.corpus.wordnet.words())


	words = "love ে ী ে া ে ু ্ া োঁ ে"

	words_cleaned = " ".join(w for w in nltk.wordpunct_tokenize(words) if w.lower() in wordnet )

	print(words_cleaned)

	# output 'love'
No results found