MLWhiz · February 9, 2019 08:06
diff --git a/hv.py b/hv.py
 # Always start with these features. They work (almost) everytime!
 hv = HashingVectorizer(dtype=np.float32,
            strip_accents='unicode', analyzer='word',
            ngram_range=(1, 4),n_features=2**12,non_negative=True)
 # Fitting Hash Vectorizer to both training and test sets (semi-supervised learning)
 hv.fit(list(train_df.cleaned_text.values) + list(test_df.cleaned_text.values))
 xtrain_hv =  hv.transform(train_df.cleaned_text.values) 
 xvalid_hv = hv.transform(test_df.cleaned_text.values)
 y_train = train_df.target.values
	# Always start with these features. They work (almost) everytime!
	hv = HashingVectorizer(dtype=np.float32,
	strip_accents='unicode', analyzer='word',
	ngram_range=(1, 4),n_features=2**12,non_negative=True)
	# Fitting Hash Vectorizer to both training and test sets (semi-supervised learning)
	hv.fit(list(train_df.cleaned_text.values) + list(test_df.cleaned_text.values))
	xtrain_hv = hv.transform(train_df.cleaned_text.values)
	xvalid_hv = hv.transform(test_df.cleaned_text.values)
	y_train = train_df.target.values
No results found