abetancort · January 5, 2025 23:44 · abetancort · Jan 6, 2025
diff --git a/build_train_doc2vec.py b/build_train_doc2vec.py
 def tagged_document(list_of_list_of_words):
   for i, list_of_words in enumerate(list_of_list_of_words):
      yield gensim.models.doc2vec.TaggedDocument(list_of_words, [i])
 
 training_data = list(tagged_document(data))
 model = gensim.models.doc2vec.Doc2Vec(vector_size=40, min_count=2, epochs=30)
 
 model.build_vocab(training_data)
 model.train(training_data, total_examples=model.corpus_count, epochs=model.epochs)
diff --git a/cos_similarity.py b/cos_similarity.py
 def cos_similarity(x,y):
  """ return cosine similarity between two lists """
 
  numerator = sum(a*b for a,b in zip(x,y))
  denominator = squared_sum(x)*squared_sum(y)
  return round(numerator/float(denominator),3)

 cos_similarity(embeddings[0], embeddings[1])

 # OUTPUT
 0.891
diff --git a/count_vectorizer.py b/count_vectorizer.py
 from sklearn.metrics.pairwise import cosine_similarity
 from sklearn.feature_extraction.text import CountVectorizer

 vectorizer = CountVectorizer()
 X = vectorizer.fit_transform(headlines)
 arr = X.toarray()

 create_heatmap(cosine_similarity(arr))
diff --git a/create_docs.py b/create_docs.py
 nlp = spacy.load('en_core_web_md')
 docs = [nlp(headline) for headline in headlines]
diff --git a/create_elmo_model.py b/create_elmo_model.py
 from simple_elmo import ElmoModel
 model = ElmoModel()
 model.load("/content/209.zip")
 
 sentence = "After stealing gold from the bank vault, the bank robber was seen fishing on the river bank."
diff --git a/create_heatmap.py b/create_heatmap.py
 labels = [headline[:20] for headline in headlines]
 
 def create_heatmap(similarity, cmap = "YlGnBu"):
  df = pd.DataFrame(similarity)
  df.columns = labels
  df.index = labels
  fig, ax = plt.subplots(figsize=(5,5))
  sns.heatmap(df, cmap=cmap)
diff --git a/distance_to_similarity.py b/distance_to_similarity.py
 def distance_to_similarity(distance):
  return 1/exp(distance)

 distance_to_similarity(distance) 

 # OUTPUT
 0.8450570465624478
diff --git a/download_elmo b/download_elmo
 wget http://vectors.nlpl.eu/repository/20/209.zip
diff --git a/download_spacy_medium b/download_spacy_medium
 python -m spacy download en_core_web_md
diff --git a/elmo_vectors.py b/elmo_vectors.py
 elmo_vectors = model.get_elmo_vectors(sentence, layers="average")
 print(f"Tensor shape: {elmo_vectors.shape}")

 # OUTPUT
 Tensor shape: (1, 92, 1024)
diff --git a/elmo_word_vector.py b/elmo_word_vector.py
 vault = np.sum(elmo_vectors[0][29:33], axis = 0)/4
 robber = np.sum(elmo_vectors[0][45:49], axis = 0)/4
 river = np.sum(elmo_vectors[0][87:91], axis = 0)/4
diff --git a/euclidean_distance.py b/euclidean_distance.py
 from math import sqrt, pow, exp
 
 def squared_sum(x):
  """ return 3 rounded square rooted value """
 
  return round(sqrt(sum([a*a for a in x])),3)
 
 def euclidean_distance(x,y):
  """ return euclidean distance between two lists """
 
  return sqrt(sum(pow(a-b,2) for a, b in zip(x, y)))
diff --git a/get_bert_model.py b/get_bert_model.py
 from sentence_transformers import SentenceTransformer, util
 model = SentenceTransformer('stsb-roberta-large')
diff --git a/get_euclidean_distance.py b/get_euclidean_distance.py
 embeddings = [nlp(sentence).vector for sentence in sentences]

 distance = euclidean_distance(embeddings[0], embeddings[1])
 print(distance)

 # OUTPUT
 1.8646982721454675
diff --git a/get_text8.py b/get_text8.py
 import gensim
 import gensim.downloader as api
 dataset = api.load("text8")
 data = [i for i in dataset]
diff --git a/get_USE_model.py b/get_USE_model.py
 import tensorflow as tf
 import tensorflow_hub as hub
 module_url = "https://tfhub.dev/google/universal-sentence-encoder/4" 
 model = hub.load(module_url)
diff --git a/headlines.py b/headlines.py
 headlines = [
 #Crypto
 'Investors unfazed by correction as crypto funds see $154 million inflows',
 'Bitcoin, Ethereum prices continue descent, but crypto funds see inflows',
 
 #Inflation
 'The surge in euro area inflation during the pandemic: transitory but with upside risks',
 "Inflation: why it's temporary and raising interest rates will do more harm than good",
 
 #common
 'Will Cryptocurrency Protect Against Inflation?']
diff --git a/install_sentence_transformers b/install_sentence_transformers
 pip install transformers sentence-transformers
diff --git a/jaccard_similarity.py b/jaccard_similarity.py
 def jaccard_similarity(x,y):
  """ returns the jaccard similarity between two lists """
  intersection_cardinality = len(set.intersection(*[set(x), set(y)]))
  union_cardinality = len(set.union(*[set(x), set(y)]))
  return intersection_cardinality/float(union_cardinality)
diff --git a/test_doc2vec_vectors.py b/test_doc2vec_vectors.py
 vectors = [model.infer_vector([word for word in sent]).reshape(1,-1) for sent in sentences]

 similarity = []
   for i in range(len(sentences)):
       row = []
       for j in range(len(sentences)):
          row.append(cosine_similarity(vectors[i],vectors[j])[0][0])
       similarity.append(row)
      
 create_heatmap(similarity)
diff --git a/test_elmo_word_vectors.py b/test_elmo_word_vectors.py
 diff_bank_1 = cosine_similarity(vault, river)
 diff_bank_2 = cosine_similarity(river, robber)
 same_bank = cosine_similarity(vault, robber)
 
 print('Vector similarity for  *similar*  meanings:  %.2f' % same_bank)
 print('Vector similarity for *different* meanings:  %.2f' % diff_bank_1)
 print('Vector similarity for *different* meanings:  %.2f' % diff_bank_2)
diff --git a/test_jaccard.py b/test_jaccard.py
 sentences = ["The bottle is empty",
 "There is nothing in the bottle"]
 sentences = [sent.lower().split(" ") for sent in sentences]
 jaccard_similarity(sentences[0], sentences[1])

 # OUPUT
 0.42857142857142855
diff --git a/test_sent_transformer_vectors.py b/test_sent_transformer_vectors.py
 embeddings = model.encode(sentences, convert_to_tensor=True)

  similarity = []
  for i in range(len(sentences)):
    row = []
    for j in range(len(sentences)):
      row.append(util.pytorch_cos_sim(embeddings[i], embeddings[j]).item())
    similarity.append(row)
    
 create_heatmap(similarity)
diff --git a/test_USE_vectors.py b/test_USE_vectors.py
 embeddings = model(text)
 similarity = cosine_similarity(embeddings)
 create_heatmap(similarity)
diff --git a/tfidf_vectorizer.py b/tfidf_vectorizer.py
 from sklearn.feature_extraction.text import TfidfVectorizer

 vectorizer = TfidfVectorizer()
 X = vectorizer.fit_transform(headlines)
 arr = X.toarray()

 create_heatmap(cosine_similarity(arr))
diff --git a/word2vec_cosine_similarity.py b/word2vec_cosine_similarity.py
 similarity = []
  for i in range(len(docs)):
    row = []
    for j in range(len(docs)):
      row.append(docs[i].similarity(docs[j]))
    similarity.append(row)
 create_heatmap(similarity)
diff --git a/word_vector_example.py b/word_vector_example.py
 print(docs[0].vector)
	def tagged_document(list_of_list_of_words):
	for i, list_of_words in enumerate(list_of_list_of_words):
	yield gensim.models.doc2vec.TaggedDocument(list_of_words, [i])

	training_data = list(tagged_document(data))
	model = gensim.models.doc2vec.Doc2Vec(vector_size=40, min_count=2, epochs=30)

	model.build_vocab(training_data)
	model.train(training_data, total_examples=model.corpus_count, epochs=model.epochs)
	def cos_similarity(x,y):
	""" return cosine similarity between two lists """

	numerator = sum(a*b for a,b in zip(x,y))
	denominator = squared_sum(x)*squared_sum(y)
	return round(numerator/float(denominator),3)

	cos_similarity(embeddings[0], embeddings[1])

	# OUTPUT
	0.891
	from sklearn.metrics.pairwise import cosine_similarity
	from sklearn.feature_extraction.text import CountVectorizer

	vectorizer = CountVectorizer()
	X = vectorizer.fit_transform(headlines)
	arr = X.toarray()

	create_heatmap(cosine_similarity(arr))
	nlp = spacy.load('en_core_web_md')
	docs = [nlp(headline) for headline in headlines]
	from simple_elmo import ElmoModel
	model = ElmoModel()
	model.load("/content/209.zip")

	sentence = "After stealing gold from the bank vault, the bank robber was seen fishing on the river bank."
	labels = [headline[:20] for headline in headlines]

	def create_heatmap(similarity, cmap = "YlGnBu"):
	df = pd.DataFrame(similarity)
	df.columns = labels
	df.index = labels
	fig, ax = plt.subplots(figsize=(5,5))
	sns.heatmap(df, cmap=cmap)
	def distance_to_similarity(distance):
	return 1/exp(distance)

	distance_to_similarity(distance)

	# OUTPUT
	0.8450570465624478
	elmo_vectors = model.get_elmo_vectors(sentence, layers="average")
	print(f"Tensor shape: {elmo_vectors.shape}")

	# OUTPUT
	Tensor shape: (1, 92, 1024)
	vault = np.sum(elmo_vectors[0][29:33], axis = 0)/4
	robber = np.sum(elmo_vectors[0][45:49], axis = 0)/4
	river = np.sum(elmo_vectors[0][87:91], axis = 0)/4
	from math import sqrt, pow, exp

	def squared_sum(x):
	""" return 3 rounded square rooted value """

	return round(sqrt(sum([a*a for a in x])),3)

	def euclidean_distance(x,y):
	""" return euclidean distance between two lists """

	return sqrt(sum(pow(a-b,2) for a, b in zip(x, y)))