MLWhiz · February 9, 2019 08:02
diff --git a/countvect.py b/countvect.py
 cnt_vectorizer = CountVectorizer(dtype=np.float32,
            strip_accents='unicode', analyzer='word',token_pattern=r'\w{1,}',
            ngram_range=(1, 3),min_df=3)


 # we fit count vectorizer to get ngrams from both train and test data.
 cnt_vectorizer.fit(list(train_df.cleaned_text.values) + list(test_df.cleaned_text.values))

 xtrain_cntv =  cnt_vectorizer.transform(train_df.cleaned_text.values) 
 xtest_cntv = cnt_vectorizer.transform(test_df.cleaned_text.values)
	cnt_vectorizer = CountVectorizer(dtype=np.float32,
	strip_accents='unicode', analyzer='word',token_pattern=r'\w{1,}',
	ngram_range=(1, 3),min_df=3)


	# we fit count vectorizer to get ngrams from both train and test data.
	cnt_vectorizer.fit(list(train_df.cleaned_text.values) + list(test_df.cleaned_text.values))

	xtrain_cntv = cnt_vectorizer.transform(train_df.cleaned_text.values)
	xtest_cntv = cnt_vectorizer.transform(test_df.cleaned_text.values)