DanielDaCosta · May 6, 2020 02:07
diff --git a/Keras_tokenizer.py b/Keras_tokenizer.py
 from keras.preprocessing.text import Tokenizer
 from keras.preprocessing.sequence import pad_sequences
 vocabulary_size = 20000 # Choosing size of vocabulary
 tokenizer = Tokenizer(num_words=vocabulary_size)
 tokenizer.fit_on_texts(df['message'])
 sequences = tokenizer.texts_to_sequences(df['message'])
 # Pads sequences to the same length: MAXLEN
 MAXLEN = 50
 X = pad_sequences(sequences, maxlen=MAXLEN)
 y = df[output_columns_all]
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state = 42)
	from keras.preprocessing.text import Tokenizer
	from keras.preprocessing.sequence import pad_sequences
	vocabulary_size = 20000 # Choosing size of vocabulary
	tokenizer = Tokenizer(num_words=vocabulary_size)
	tokenizer.fit_on_texts(df['message'])
	sequences = tokenizer.texts_to_sequences(df['message'])
	# Pads sequences to the same length: MAXLEN
	MAXLEN = 50
	X = pad_sequences(sequences, maxlen=MAXLEN)
	y = df[output_columns_all]
	X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state = 42)