guilhermefgs · October 11, 2020 19:40
diff --git a/nltk_freq_dist.py b/nltk_freq_dist.py
 import nltk
 nltk.download('machado')
 from nltk.probability import FreqDist
 from nltk.tokenize import word_tokenize
 nltk.download('punkt')

 # corpus dom casmurro
 corpus_dom_casmurro = nltk.corpus.machado.raw('romance/marm08.txt')

 # pre processamento
 texto = pre_processamento(corpus_dom_casmurro)

 # tokenizando 
 tokens = word_tokenize(texto)

 # contagem de frequencia
 fd = FreqDist(tokens)
 print("20 palavras mais frequentes:")
 print(fd.most_common(20))

 # plot
 import matplotlib.pyplot as plt
 plt.figure(figsize = (13, 8))
 fd.plot(30, title = "Frequência de Palavras")
	import nltk
	nltk.download('machado')
	from nltk.probability import FreqDist
	from nltk.tokenize import word_tokenize
	nltk.download('punkt')

	# corpus dom casmurro
	corpus_dom_casmurro = nltk.corpus.machado.raw('romance/marm08.txt')

	# pre processamento
	texto = pre_processamento(corpus_dom_casmurro)

	# tokenizando
	tokens = word_tokenize(texto)

	# contagem de frequencia
	fd = FreqDist(tokens)
	print("20 palavras mais frequentes:")
	print(fd.most_common(20))

	# plot
	import matplotlib.pyplot as plt
	plt.figure(figsize = (13, 8))
	fd.plot(30, title = "Frequência de Palavras")