joshua-taylor · October 10, 2020 11:20 · bigfoot504 · Mar 8, 2022
diff --git a/BM25 for wordvectors.py b/BM25 for wordvectors.py
 weighted_doc_vects = []

 for i,doc in tqdm(enumerate(tok_text)):
  doc_vector = []
  for word in doc:
    vector = ft_model[word]
    weight = (bm25.idf[word] * ((bm25.k1 + 1.0)*bm25.doc_freqs[i][word])) 
    / 
    (bm25.k1 * (1.0 - bm25.b + bm25.b *(bm25.doc_len[i]/bm25.avgdl))+bm25.doc_freqs[i][word])
    weighted_vector = vector * weight
    doc_vector.append(weighted_vector)
  doc_vector_mean = np.mean(doc_vector,axis=0)
  weighted_doc_vects.append(doc_vector_mean)
  
  pickle.dump( weighted_doc_vects, open( "weighted_doc_vects.p", "wb" ) ) #save the results to disc
	weighted_doc_vects = []

	for i,doc in tqdm(enumerate(tok_text)):
	doc_vector = []
	for word in doc:
	vector = ft_model[word]
	weight = (bm25.idf[word] * ((bm25.k1 + 1.0)*bm25.doc_freqs[i][word]))
	/
	(bm25.k1 * (1.0 - bm25.b + bm25.b *(bm25.doc_len[i]/bm25.avgdl))+bm25.doc_freqs[i][word])
	weighted_vector = vector * weight
	doc_vector.append(weighted_vector)
	doc_vector_mean = np.mean(doc_vector,axis=0)
	weighted_doc_vects.append(doc_vector_mean)

	pickle.dump( weighted_doc_vects, open( "weighted_doc_vects.p", "wb" ) ) #save the results to disc