devashishd12 · July 14, 2016 05:48
diff --git a/movies_cv.py b/movies_cv.py
 import re
 import os

 from scipy.stats import pearsonr
 from datetime import datetime

 from gensim.models import CoherenceModel
 from gensim.corpora.dictionary import Dictionary

 prefix = "/home/devashish/datasets/Movies/movie"
 start = datetime.now()
 texts = []
 for fil in os.listdir(prefix):
    for line in open(prefix + '/' + fil):
        # lower case all words
        lowered = line.lower()
        #remove punctuation and split into seperate words
        words = re.findall(r'\w+', lowered, flags = re.UNICODE | re.LOCALE)
        texts.append(words)
 end = datetime.now()
 print "Time taken: %s" % (end - start)

 start = datetime.now()
 dictionary = Dictionary(texts)
 corpus = [dictionary.doc2bow(text) for text in texts]
 end = datetime.now()
 print "Time taken: %s" % (end - start)

 print len(corpus)
 print dictionary

 topics = []  # list of 100 topics
 for l in open('/home/devashish/datasets/Movies/topicsMovie.txt'):
    topics.append([l.split()])
 topics.pop(100)

 human_scores = []
 for l in open('/home/devashish/datasets/Movies/goldMovie.txt'):
    human_scores.append(float(l.strip()))

 start = datetime.now()
 c_v = []
 for n, topic in enumerate(topics[:1]):
    print n  # for personal monitoring purposes. sorry for this
    try:
        cm = CoherenceModel(topics=topic, texts=texts, dictionary=dictionary, coherence='c_v')
        c_v.append(cm.get_coherence())
    except KeyError:
        raise
        pass
 end = datetime.now()
 print "Time taken: %s" % (end - start)

 print c_v
	import re
	import os

	from scipy.stats import pearsonr
	from datetime import datetime

	from gensim.models import CoherenceModel
	from gensim.corpora.dictionary import Dictionary

	prefix = "/home/devashish/datasets/Movies/movie"
	start = datetime.now()
	texts = []
	for fil in os.listdir(prefix):
	for line in open(prefix + '/' + fil):
	# lower case all words
	lowered = line.lower()
	#remove punctuation and split into seperate words
	words = re.findall(r'\w+', lowered, flags = re.UNICODE \| re.LOCALE)
	texts.append(words)
	end = datetime.now()
	print "Time taken: %s" % (end - start)

	start = datetime.now()
	dictionary = Dictionary(texts)
	corpus = [dictionary.doc2bow(text) for text in texts]
	end = datetime.now()
	print "Time taken: %s" % (end - start)

	print len(corpus)
	print dictionary

	topics = [] # list of 100 topics
	for l in open('/home/devashish/datasets/Movies/topicsMovie.txt'):
	topics.append([l.split()])
	topics.pop(100)

	human_scores = []
	for l in open('/home/devashish/datasets/Movies/goldMovie.txt'):
	human_scores.append(float(l.strip()))

	start = datetime.now()
	c_v = []
	for n, topic in enumerate(topics[:1]):
	print n # for personal monitoring purposes. sorry for this
	try:
	cm = CoherenceModel(topics=topic, texts=texts, dictionary=dictionary, coherence='c_v')
	c_v.append(cm.get_coherence())
	except KeyError:
	raise
	pass
	end = datetime.now()
	print "Time taken: %s" % (end - start)

	print c_v