gauravbansal98 · May 13, 2020 12:40
diff --git a/tokenizer b/tokenizer
 # convert a dictionary of clean descriptions to a list of descriptions
 def to_lines(descriptions):
 	all_desc = list()
 	for key in descriptions.keys():
 		[all_desc.append(d) for d in descriptions[key]]
 	return all_desc

 # fit a tokenizer given caption descriptions
 def create_tokenizer(descriptions):
 	lines = to_lines(descriptions)
 	tokenizer = Tokenizer()
 	tokenizer.fit_on_texts(lines)
 	return tokenizer

 # prepare tokenizer
 tokenizer = create_tokenizer(train_descriptions)
 vocab_size = len(tokenizer.word_index) + 1
 print('Vocabulary Size: %d' % vocab_size)
	# convert a dictionary of clean descriptions to a list of descriptions
	def to_lines(descriptions):
	all_desc = list()
	for key in descriptions.keys():
	[all_desc.append(d) for d in descriptions[key]]
	return all_desc

	# fit a tokenizer given caption descriptions
	def create_tokenizer(descriptions):
	lines = to_lines(descriptions)
	tokenizer = Tokenizer()
	tokenizer.fit_on_texts(lines)
	return tokenizer

	# prepare tokenizer
	tokenizer = create_tokenizer(train_descriptions)
	vocab_size = len(tokenizer.word_index) + 1
	print('Vocabulary Size: %d' % vocab_size)