negedng · October 18, 2020 21:36
diff --git a/nlp_datasets_hfds_tokenizer_training.py b/nlp_datasets_hfds_tokenizer_training.py
 with open("imdb_train_plain_lines.txt",'w') as f:
    for examples in ds2_train:
        f.write(examples['text'])
        f.write('\n')

 from tokenizers import Tokenizer, models, pre_tokenizers, decoders, trainers, processors, BertWordPieceTokenizer

 # Initialize a tokenizer
 tokenizer = BertWordPieceTokenizer()

 # Customize pre-tokenization and decoding
 tokenizer.pre_tokenizer = pre_tokenizers.BertPreTokenizer()
 tokenizer.decoder = decoders.WordPiece()

 # And then train
 tokenizer.train([
 	"imdb_train_plain_lines.txt"
 ], vocab_size=max_features, min_frequency=1)
	with open("imdb_train_plain_lines.txt",'w') as f:
	for examples in ds2_train:
	f.write(examples['text'])
	f.write('\n')

	from tokenizers import Tokenizer, models, pre_tokenizers, decoders, trainers, processors, BertWordPieceTokenizer

	# Initialize a tokenizer
	tokenizer = BertWordPieceTokenizer()

	# Customize pre-tokenization and decoding
	tokenizer.pre_tokenizer = pre_tokenizers.BertPreTokenizer()
	tokenizer.decoder = decoders.WordPiece()

	# And then train
	tokenizer.train([
	"imdb_train_plain_lines.txt"
	], vocab_size=max_features, min_frequency=1)
No results found