nassimhaddad · August 29, 2015 14:12
diff --git a/glove.R b/glove.R
 # download the trained word vectors (~100mb)
 download_to <- tempfile()
 download.file('http://www-nlp.stanford.edu/data/glove.6B.50d.txt.gz',
              download_to)

 # prepare the data
 data <- read.table(download_to, sep = " ", header = FALSE,
                 quote = NULL, comment.char = "", row.names = 1,
                 nrows = -1)
 data <- as.matrix(data)


 if (!(require(FNN))){
  install.packages("FNN")
  require(FNN)
 }

 allwords <- row.names(data)

 # quick function
 get_closest <- function(x, k = 10){
  knns <- get.knnx(data, t(x), k=k)
  data.frame(words = allwords[knns$nn.index],
             dist = as.vector(knns$nn.dist))
 }

 # find closest words 
 get_closest(data["wine",])

 # arithmetic based on words
 comp <- data["king",] - data["son",] + data["daughter",]
 get_closest(comp)

 # cleanup: delete the temporary file
 file.remove(download_to)
	# download the trained word vectors (~100mb)
	download_to <- tempfile()
	download.file('http://www-nlp.stanford.edu/data/glove.6B.50d.txt.gz',
	download_to)

	# prepare the data
	data <- read.table(download_to, sep = " ", header = FALSE,
	quote = NULL, comment.char = "", row.names = 1,
	nrows = -1)
	data <- as.matrix(data)


	if (!(require(FNN))){
	install.packages("FNN")
	require(FNN)
	}

	allwords <- row.names(data)

	# quick function
	get_closest <- function(x, k = 10){
	knns <- get.knnx(data, t(x), k=k)
	data.frame(words = allwords[knns$nn.index],
	dist = as.vector(knns$nn.dist))
	}

	# find closest words
	get_closest(data["wine",])

	# arithmetic based on words
	comp <- data["king",] - data["son",] + data["daughter",]
	get_closest(comp)

	# cleanup: delete the temporary file
	file.remove(download_to)