andrea-dagostino · November 23, 2021 17:20
diff --git a/clustering_ita_get_keywords.py b/clustering_ita_get_keywords.py
 def get_top_keywords(n_terms):
    """Questa funzione restituisce le keyword per ogni centroide del KMeans"""
    df = pd.DataFrame(X.todense()).groupby(clusters).mean() # raggruppa il vettore TF-IDF per gruppo
    terms = vectorizer.get_feature_names_out() # accedi ai termini del tf idf
    for i,r in df.iterrows():
        print('\nCluster {}'.format(i))
        print(','.join([terms[t] for t in np.argsort(r)[-n_terms:]])) # per ogni riga del dataframe, trova gli n termini che hanno il punteggio più alto
            
 get_top_keywords(10)
	def get_top_keywords(n_terms):
	"""Questa funzione restituisce le keyword per ogni centroide del KMeans"""
	df = pd.DataFrame(X.todense()).groupby(clusters).mean() # raggruppa il vettore TF-IDF per gruppo
	terms = vectorizer.get_feature_names_out() # accedi ai termini del tf idf
	for i,r in df.iterrows():
	print('\nCluster {}'.format(i))
	print(','.join([terms[t] for t in np.argsort(r)[-n_terms:]])) # per ogni riga del dataframe, trova gli n termini che hanno il punteggio più alto

	get_top_keywords(10)
No results found