maxbellec · June 22, 2022 14:36 · khallaghi · Jun 22, 2022
diff --git a/word2vec_tf_idf_from_wikipeida.py b/word2vec_tf_idf_from_wikipeida.py
 import multiprocessing
 from gensim.corpora.wikicorpus import WikiCorpus
 from gensim.models.word2vec import Word2Vec
 from gensim.models import TfidfModel

 # logging is important to get the state of the functions
 import logging
 logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
 logging.root.setLevel(level=logging.INFO)

 wiki = WikiCorpus('data/enwiki-20170101-pages-articles-multistream.xml.bz2', lemmatize=False)
 tfidf = TfidfModel(wiki)
 # save for persistence
 wiki.save('wiki.corpus)
 tfidf.save('wiki.tfidf.model')
          
 # word2vec
 class MySentences(object):
    def __iter__(self):
        for text in wiki.get_texts():
            yield [word.decode() for word in text]
 sentences = MySentences()
 params = {'size': 300, 'window': 10, 'min_count': 40, 
          'workers': max(1, multiprocessing.cpu_count() - 1), 'sample': 1e-3,}
 word2vec = Word2Vec(sentences, **params)
 word2vec.save('wiki.word2vec.model')
	import multiprocessing
	from gensim.corpora.wikicorpus import WikiCorpus
	from gensim.models.word2vec import Word2Vec
	from gensim.models import TfidfModel

	# logging is important to get the state of the functions
	import logging
	logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
	logging.root.setLevel(level=logging.INFO)

	wiki = WikiCorpus('data/enwiki-20170101-pages-articles-multistream.xml.bz2', lemmatize=False)
	tfidf = TfidfModel(wiki)
	# save for persistence
	wiki.save('wiki.corpus)
	tfidf.save('wiki.tfidf.model')

	# word2vec
	class MySentences(object):
	def __iter__(self):
	for text in wiki.get_texts():
	yield [word.decode() for word in text]
	sentences = MySentences()
	params = {'size': 300, 'window': 10, 'min_count': 40,
	'workers': max(1, multiprocessing.cpu_count() - 1), 'sample': 1e-3,}
	word2vec = Word2Vec(sentences, **params)
	word2vec.save('wiki.word2vec.model')