balajikvijayan · December 1, 2015 22:23 · renaud · Jul 19, 2016 · Rietaros · Sep 22, 2016
diff --git a/gensim doc2vec tutorial b/gensim doc2vec tutorial
 from gensim import models

 sentence = models.doc2vec.LabeledSentence(
    words=[u'so`bme', u'words', u'here'], tags=["SENT_0"])
 sentence1 = models.doc2vec.LabeledSentence(
    words=[u'here', u'we', u'go'], tags=["SENT_1"])

 sentences = [sentence, sentence1]

 class LabeledLineSentence(object):
    def __init__(self, filename):
        self.filename = filename
    def __iter__(self):
        for uid, line in enumerate(open(filename)):
            yield LabeledSentence(words=line.split(), labels=['SENT_%s' % uid])
            
 model = models.Doc2Vec(alpha=.025, min_alpha=.025, min_count=1)
 model.build_vocab(sentences)

 for epoch in range(10):
    model.train(sentences)
    model.alpha -= 0.002  # decrease the learning rate`
    model.min_alpha = model.alpha  # fix the learning rate, no decay

 model.save("my_model.doc2vec")
 model_loaded = models.Doc2Vec.load('my_model.doc2vec')

 print model.docvecs.most_similar(["SENT_0"])
 print model_loaded.docvecs.most_similar(["SENT_1"])
	from gensim import models

	sentence = models.doc2vec.LabeledSentence(
	words=[u'so`bme', u'words', u'here'], tags=["SENT_0"])
	sentence1 = models.doc2vec.LabeledSentence(
	words=[u'here', u'we', u'go'], tags=["SENT_1"])

	sentences = [sentence, sentence1]

	class LabeledLineSentence(object):
	def __init__(self, filename):
	self.filename = filename
	def __iter__(self):
	for uid, line in enumerate(open(filename)):
	yield LabeledSentence(words=line.split(), labels=['SENT_%s' % uid])

	model = models.Doc2Vec(alpha=.025, min_alpha=.025, min_count=1)
	model.build_vocab(sentences)

	for epoch in range(10):
	model.train(sentences)
	model.alpha -= 0.002 # decrease the learning rate`
	model.min_alpha = model.alpha # fix the learning rate, no decay

	model.save("my_model.doc2vec")
	model_loaded = models.Doc2Vec.load('my_model.doc2vec')

	print model.docvecs.most_similar(["SENT_0"])
	print model_loaded.docvecs.most_similar(["SENT_1"])