eustin · June 8, 2020 04:10
diff --git a/letor-part-2-tokeniser.py b/letor-part-2-tokeniser.py
 combined_texts = [query_1, *bing_search_results, query_2, *google_search_results]

 tokeniser = tf.keras.preprocessing.text.Tokenizer()
 tokeniser.fit_on_texts(combined_texts)

 # we add one here to account for the padding word
 vocab_size = max(tokeniser.index_word) + 1
 print(vocab_size)
	combined_texts = [query_1, bing_search_results, query_2, google_search_results]

	tokeniser = tf.keras.preprocessing.text.Tokenizer()
	tokeniser.fit_on_texts(combined_texts)

	# we add one here to account for the padding word
	vocab_size = max(tokeniser.index_word) + 1
	print(vocab_size)