ameyavilankar · January 25, 2023 10:19 · rakshithShetty · Nov 25, 2015
diff --git a/preprocess.py b/preprocess.py
 import string
 import nltk
 from nltk.tokenize import RegexpTokenizer
 from nltk.corpus import stopwords
 import re

 def preprocess(sentence):
 	sentence = sentence.lower()
 	tokenizer = RegexpTokenizer(r'\w+')
 	tokens = tokenizer.tokenize(sentence)
 	filtered_words = [w for w in tokens if not w in stopwords.words('english')]
 	return " ".join(filtered_words)

 sentence = "At eight o'clock on Thursday morning Arthur didn't feel very good. French-Fries"
 print preprocess(sentence)
	import string
	import nltk
	from nltk.tokenize import RegexpTokenizer
	from nltk.corpus import stopwords
	import re

	def preprocess(sentence):
	sentence = sentence.lower()
	tokenizer = RegexpTokenizer(r'\w+')
	tokens = tokenizer.tokenize(sentence)
	filtered_words = [w for w in tokens if not w in stopwords.words('english')]
	return " ".join(filtered_words)

	sentence = "At eight o'clock on Thursday morning Arthur didn't feel very good. French-Fries"
	print preprocess(sentence)