tokestermw · July 20, 2016 01:09
diff --git a/glove.sh b/glove.sh
 vocab=400000
 tokens=42
 dim=300
 filename="glove.${tokens}B.${dim}d"
 n="_unnorm"
 txt=".txt"
 bin=".bin"
 echo "${vocab} ${dim}" > $filename$n$txt
 cat $filename$txt >> $filename$n$txt

 python - <<END
 from gensim.models import Word2Vec
 model = Word2Vec.load_word2vec_format("$filename$n$txt")

 model.save_word2vec_format("$filename$n$bin", binary=True)
 model.init_sims(replace=True)
 model.save_word2vec_format("$filename$bin", binary=True)
 END
	vocab=400000
	tokens=42
	dim=300
	filename="glove.${tokens}B.${dim}d"
	n="_unnorm"
	txt=".txt"
	bin=".bin"
	echo "${vocab} ${dim}" > $filename$n$txt
	cat $filename$txt >> $filename$n$txt

	python - <<END
	from gensim.models import Word2Vec
	model = Word2Vec.load_word2vec_format("$filename$n$txt")

	model.save_word2vec_format("$filename$n$bin", binary=True)
	model.init_sims(replace=True)
	model.save_word2vec_format("$filename$bin", binary=True)
	END