nonsleepr · February 12, 2015 21:58
diff --git a/tokenizer.R b/tokenizer.R
 ngrams.tokenizer <- function(x, n = 2) {
  trim <- function(x) gsub("(^\\s+|\\s+$)", "", x)
  terms <- strsplit(trim(x), split = "\\s+")[[1]]
  ngrams <- vector()
  if (length(terms) >= n) {
    for (i in n:length(terms)) {
      ngram <- paste(terms[(i-n+1):i], collapse = " ")
      ngrams <- c(ngrams,ngram)
    }
  }
  ngrams  
 }

 ngrams.tokenizer(" this  is a sentense to be ngrammized", 3)
	ngrams.tokenizer <- function(x, n = 2) {
	trim <- function(x) gsub("(^\\s+\|\\s+$)", "", x)
	terms <- strsplit(trim(x), split = "\\s+")[[1]]
	ngrams <- vector()
	if (length(terms) >= n) {
	for (i in n:length(terms)) {
	ngram <- paste(terms[(i-n+1):i], collapse = " ")
	ngrams <- c(ngrams,ngram)
	}
	}
	ngrams
	}

	ngrams.tokenizer(" this is a sentense to be ngrammized", 3)
No results found