mmmayo13 · April 22, 2021 07:11
diff --git a/make_wiki_corpus.py b/make_wiki_corpus.py
 """
 Creates a corpus from Wikipedia dump file.

 Inspired by:
 https://github.com/panyang/Wikipedia_Word2vec/blob/master/v1/process_wiki.py
 """

 import sys
 from gensim.corpora import WikiCorpus

 def make_corpus(in_f, out_f):

 	"""Convert Wikipedia xml dump file to text corpus"""

 	output = open(out_f, 'w')
 	wiki = WikiCorpus(in_f)

 	i = 0
 	for text in wiki.get_texts():
 		output.write(bytes(' '.join(text), 'utf-8').decode('utf-8') + '\n')
 		i = i + 1
 		if (i % 10000 == 0):
 			print('Processed ' + str(i) + ' articles')
 	output.close()
 	print('Processing complete!')


 if __name__ == '__main__':

 	if len(sys.argv) != 3:
 		print('Usage: python make_wiki_corpus.py <wikipedia_dump_file> <processed_text_file>')
 		sys.exit(1)
 	in_f = sys.argv[1]
 	out_f = sys.argv[2]
 	make_corpus(in_f, out_f)
	"""
	Creates a corpus from Wikipedia dump file.

	Inspired by:
	https://github.com/panyang/Wikipedia_Word2vec/blob/master/v1/process_wiki.py
	"""

	import sys
	from gensim.corpora import WikiCorpus

	def make_corpus(in_f, out_f):

	"""Convert Wikipedia xml dump file to text corpus"""

	output = open(out_f, 'w')
	wiki = WikiCorpus(in_f)

	i = 0
	for text in wiki.get_texts():
	output.write(bytes(' '.join(text), 'utf-8').decode('utf-8') + '\n')
	i = i + 1
	if (i % 10000 == 0):
	print('Processed ' + str(i) + ' articles')
	output.close()
	print('Processing complete!')


	if __name__ == '__main__':

	if len(sys.argv) != 3:
	print('Usage: python make_wiki_corpus.py <wikipedia_dump_file> <processed_text_file>')
	sys.exit(1)
	in_f = sys.argv[1]
	out_f = sys.argv[2]
	make_corpus(in_f, out_f)