🐗

Justin Evans eustin

🐗

Learning

eustin / letor-part-2-kl-divergence.py

Created June 8, 2020 04:01

sum(true_prob_dist * np.log(true_prob_dist / predicted_prob_dist))

eustin / letor-part-2-kl-same-dist.py

Created June 8, 2020 04:02

sum(true_prob_dist * np.log(true_prob_dist / true_prob_dist))

eustin / letor-part-2-query-docs.py

Created June 8, 2020 04:05

	query_1 = "dog"

	bing_search_results = [
	"Dog - Wikipedia",
	"Adopting a dog or puppy \| RSPCA Australia",
	"dog \| History, Domestication, Physical Traits, & Breeds",
	"New South Wales \| Dogs & Puppies \| Gumtree Australia Free",
	"dog - Wiktionary"
	]

eustin / letor-part-2-relevance-grades.py

Created June 8, 2020 04:06

	relevance_grades = tf.constant([
	[3.0, 2.0, 2.0, 2.0, 1.0],
	[3.0, 3.0, 1.0, 1.0, 0.0]
	])

eustin / letor-part-2-tokeniser.py

Created June 8, 2020 04:10

	combined_texts = [query_1, bing_search_results, query_2, google_search_results]

	tokeniser = tf.keras.preprocessing.text.Tokenizer()
	tokeniser.fit_on_texts(combined_texts)

	# we add one here to account for the padding word
	vocab_size = max(tokeniser.index_word) + 1
	print(vocab_size)

eustin / letor-part-2-vocab.py

Created June 8, 2020 04:11

	for idx, word in tokeniser.index_word.items():
	print(f"index {idx} - {word}")

eustin / letor-part-2-toy-embeddings.py

Created June 8, 2020 04:14

	EMBEDDING_DIMS = 2

	embeddings = np.random.randn(vocab_size, EMBEDDING_DIMS).astype(np.float32)

	print(embeddings)

eustin / letor-part-2-query-1-embeddings.py

Created June 8, 2020 04:15

	query_1_embedding_index = tokeniser.texts_to_sequences([query_1])
	query_1_embeddings = np.array([embeddings[x] for x in query_1_embedding_index])

	print(query_1_embeddings)

eustin / letor-part-2-query-2-embeddings.py

Created June 8, 2020 04:16

	query_2_embedding_indices = tokeniser.texts_to_sequences([query_2])
	query_2_embeddings = np.array([embeddings[x] for x in query_2_embedding_indices])

	print(query_2_embeddings)

eustin / letor-part-2-query-2-avg.py

Created June 8, 2020 04:18

	query_2_embeddings_avg = tf.reduce_mean(query_2_embeddings, axis=1, keepdims=True).numpy()

	print(query_2_embeddings_avg)