benmarwick · April 12, 2013 07:57 · tomkauffman · Dec 13, 2017
diff --git a/ngrams.R b/ngrams.R
 library("RWeka")
 library("tm")

 data("crude")

 BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
 tdm <- TermDocumentMatrix(crude, control = list(tokenize = BigramTokenizer))

 inspect(tdm[340:345,1:10])

 plot(tdm, terms = findFreqTerms(tdm, lowfreq = 2)[1:50], corThreshold = 0.5)
	library("RWeka")
	library("tm")

	data("crude")

	BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
	tdm <- TermDocumentMatrix(crude, control = list(tokenize = BigramTokenizer))

	inspect(tdm[340:345,1:10])

	plot(tdm, terms = findFreqTerms(tdm, lowfreq = 2)[1:50], corThreshold = 0.5)