fclesio · July 3, 2019 10:45
diff --git a/get-ngrams.py b/get-ngrams.py
 def get_word_ngrams_list(df, artist, word_ngram):

    def get_top_word_n_bigram(corpus, n=None):
        vec = CountVectorizer(ngram_range=(word_ngram, word_ngram)).fit(corpus)
        bag_of_words = vec.transform(corpus)
        sum_words = bag_of_words.sum(axis=0) 
        words_freq = [(word, sum_words[0, idx]) for word, idx in vec.vocabulary_.items()]
        words_freq =sorted(words_freq, key = lambda x: x[1], reverse=True)
        return words_freq[:n]


    common_words = get_top_word_n_bigram(df[df['artist'] == artist]['lyric'], 20)
    df3 = pd.DataFrame(common_words, columns = ['ngram' , 'qty'])

    return df3
	def get_word_ngrams_list(df, artist, word_ngram):

	def get_top_word_n_bigram(corpus, n=None):
	vec = CountVectorizer(ngram_range=(word_ngram, word_ngram)).fit(corpus)
	bag_of_words = vec.transform(corpus)
	sum_words = bag_of_words.sum(axis=0)
	words_freq = [(word, sum_words[0, idx]) for word, idx in vec.vocabulary_.items()]
	words_freq =sorted(words_freq, key = lambda x: x[1], reverse=True)
	return words_freq[:n]


	common_words = get_top_word_n_bigram(df[df['artist'] == artist]['lyric'], 20)
	df3 = pd.DataFrame(common_words, columns = ['ngram' , 'qty'])

	return df3