vallantin · October 19, 2018 11:13
diff --git a/003savariables.py b/003savariables.py
 # Drop columns we don't need
 data = data.drop(['date', 'tweet_size', 'mention'], axis=1)

 # Subset data set for faster training
 # Choose all positive and all negative samples
 positive = data[data['sentiment'] == 1]
 negative = data[data['sentiment'] == 0]

 # Choose 5% of positives and 5% of negatives
 positive = positive.sample(frac=0.05)
 negative = negative.sample(frac=0.05)

 # Merge both datasets
 reduced_set = pd.concat([positive, negative])

 # Shuffle data
 reduced_set = reduced_set.reindex(np.random.permutation(reduced_set.index))
 reduced_set.head(5)

 # Split into train and test
 X, y = reduced_set.drop(['sentiment'], axis=1), reduced_set['sentiment']

 X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.33, 
                                                    random_state=0)
	# Drop columns we don't need
	data = data.drop(['date', 'tweet_size', 'mention'], axis=1)

	# Subset data set for faster training
	# Choose all positive and all negative samples
	positive = data[data['sentiment'] == 1]
	negative = data[data['sentiment'] == 0]

	# Choose 5% of positives and 5% of negatives
	positive = positive.sample(frac=0.05)
	negative = negative.sample(frac=0.05)

	# Merge both datasets
	reduced_set = pd.concat([positive, negative])

	# Shuffle data
	reduced_set = reduced_set.reindex(np.random.permutation(reduced_set.index))
	reduced_set.head(5)

	# Split into train and test
	X, y = reduced_set.drop(['sentiment'], axis=1), reduced_set['sentiment']

	X_train, X_test, y_train, y_test = train_test_split(X, y,
	test_size=0.33,
	random_state=0)