piegu · July 2, 2020 20:52
diff --git a/Byte-Level-BPE_universal_tokenizer_but_en_pt_tonenizers.ipynb b/Byte-Level-BPE_universal_tokenizer_but_en_pt_tonenizers.ipynb
 # Byte Level BPE (BBPE) tokenizers from Transformers and Tokenizers (Hugging Face libraries)

 # 1. Get the pre-trained GPT2 Tokenizer (pre-training with an English corpus)
 from transformers import GPT2TokenizerFast

 pretrained_weights = 'gpt2'
 tokenizer_en = GPT2TokenizerFast.from_pretrained(pretrained_weights)
 tokenizer_en.pad_token = tokenizer_en.eos_token

 # 2. Train a Byte Level BPE (BBPE) tokenizer on the Portuguese Wikipedia

 # Get GPT2 tokenizer_en vocab size
 ByteLevelBPE_tokenizer_pt_vocab_size = tokenizer_en.vocab_size
 ByteLevelBPE_tokenizer_pt_vocab_size

 # ByteLevelBPETokenizer Represents a Byte-level BPE as introduced by OpenAI with their GPT-2 model
 from tokenizers import ByteLevelBPETokenizer

 ByteLevelBPE_tokenizer_pt = ByteLevelBPETokenizer()

 # Get list of paths to corpus files
 paths = [str(path_data/'all_texts_ptwiki.txt')]

 # Customize training with <|endoftext|> special GPT2 token
 ByteLevelBPE_tokenizer_pt.train(files=paths, 
                                vocab_size=ByteLevelBPE_tokenizer_pt_vocab_size, 
                                min_frequency=2, 
                                special_tokens=["<|endoftext|>"])

 # Get sequence length max of 1024
 ByteLevelBPE_tokenizer_pt.enable_truncation(max_length=1024)

 # save tokenizer
 ByteLevelBPE_tokenizer_pt_rep = 'ByteLevelBPE_tokenizer_pt'
 path_to_ByteLevelBPE_tokenizer_pt_rep = path_data/ByteLevelBPE_tokenizer_pt_rep
 if not (path_to_ByteLevelBPE_tokenizer_pt_rep).exists():
    path_to_ByteLevelBPE_tokenizer_pt_rep.mkdir(exist_ok=True, parents=True)
 ByteLevelBPE_tokenizer_pt.save_model(str(path_to_ByteLevelBPE_tokenizer_pt_rep))

 # 3. Import the tokenizer config files in Portuguese into the pre-trained GPT2 Tokenizer

 # Get the path to ByteLevelBPE_tokenizer_pt config files
 ByteLevelBPE_tokenizer_pt_rep = 'ByteLevelBPE_tokenizer_pt'
 path_to_ByteLevelBPE_tokenizer_pt_rep = path_data/ByteLevelBPE_tokenizer_pt_rep

 # import the pre-trained GPT2TokenizerFast tokenizer with the tokenizer_pt config files
 tokenizer_pt = GPT2TokenizerFast.from_pretrained(
    str(path_to_ByteLevelBPE_tokenizer_pt_rep), 
    pad_token='<|endoftext|>')

 # Get sequence length max of 1024
 tokenizer_pt.model_max_length = 1024
	# Byte Level BPE (BBPE) tokenizers from Transformers and Tokenizers (Hugging Face libraries)

	# 1. Get the pre-trained GPT2 Tokenizer (pre-training with an English corpus)
	from transformers import GPT2TokenizerFast

	pretrained_weights = 'gpt2'
	tokenizer_en = GPT2TokenizerFast.from_pretrained(pretrained_weights)
	tokenizer_en.pad_token = tokenizer_en.eos_token

	# 2. Train a Byte Level BPE (BBPE) tokenizer on the Portuguese Wikipedia

	# Get GPT2 tokenizer_en vocab size
	ByteLevelBPE_tokenizer_pt_vocab_size = tokenizer_en.vocab_size
	ByteLevelBPE_tokenizer_pt_vocab_size

	# ByteLevelBPETokenizer Represents a Byte-level BPE as introduced by OpenAI with their GPT-2 model
	from tokenizers import ByteLevelBPETokenizer

	ByteLevelBPE_tokenizer_pt = ByteLevelBPETokenizer()

	# Get list of paths to corpus files
	paths = [str(path_data/'all_texts_ptwiki.txt')]

	# Customize training with <\|endoftext\|> special GPT2 token
	ByteLevelBPE_tokenizer_pt.train(files=paths,
	vocab_size=ByteLevelBPE_tokenizer_pt_vocab_size,
	min_frequency=2,
	special_tokens=["<\|endoftext\|>"])

	# Get sequence length max of 1024
	ByteLevelBPE_tokenizer_pt.enable_truncation(max_length=1024)

	# save tokenizer
	ByteLevelBPE_tokenizer_pt_rep = 'ByteLevelBPE_tokenizer_pt'
	path_to_ByteLevelBPE_tokenizer_pt_rep = path_data/ByteLevelBPE_tokenizer_pt_rep
	if not (path_to_ByteLevelBPE_tokenizer_pt_rep).exists():
	path_to_ByteLevelBPE_tokenizer_pt_rep.mkdir(exist_ok=True, parents=True)
	ByteLevelBPE_tokenizer_pt.save_model(str(path_to_ByteLevelBPE_tokenizer_pt_rep))

	# 3. Import the tokenizer config files in Portuguese into the pre-trained GPT2 Tokenizer

	# Get the path to ByteLevelBPE_tokenizer_pt config files
	ByteLevelBPE_tokenizer_pt_rep = 'ByteLevelBPE_tokenizer_pt'
	path_to_ByteLevelBPE_tokenizer_pt_rep = path_data/ByteLevelBPE_tokenizer_pt_rep

	# import the pre-trained GPT2TokenizerFast tokenizer with the tokenizer_pt config files
	tokenizer_pt = GPT2TokenizerFast.from_pretrained(
	str(path_to_ByteLevelBPE_tokenizer_pt_rep),
	pad_token='<\|endoftext\|>')

	# Get sequence length max of 1024
	tokenizer_pt.model_max_length = 1024