kasperjunge · August 21, 2022 14:08
diff --git a/print_wordpiece_tokens.py b/print_wordpiece_tokens.py
 from transformers import AutoTokenizer

 # define sample text
 text = "Rødgrød med fløde."

 # init tokenizer
 model_id = "Maltehb/danish-bert-botxo"
 tokenizer = AutoTokenizer.from_pretrained(model_id)

 # encode text
 encoding = tokenizer(text)
 print(encoding) # print raw encoding

 # Output:
 # {
 #   'input_ids': [2, 2132, 29310, 61, 10726, 771, 3], 
 #   'token_type_ids': [0, 0, 0, 0, 0, 0, 0], 
 #   'attention_mask': [1, 1, 1, 1, 1, 1, 1]
 # }

 tokens = encoding.tokens()
 print(tokens) # print decoded word piece tokens

 # Output:
 # ['[CLS]', 'rød', '##grød', 'med', 'fløde', '.', '[SEP]']
	from transformers import AutoTokenizer

	# define sample text
	text = "Rødgrød med fløde."

	# init tokenizer
	model_id = "Maltehb/danish-bert-botxo"
	tokenizer = AutoTokenizer.from_pretrained(model_id)

	# encode text
	encoding = tokenizer(text)
	print(encoding) # print raw encoding

	# Output:
	# {
	# 'input_ids': [2, 2132, 29310, 61, 10726, 771, 3],
	# 'token_type_ids': [0, 0, 0, 0, 0, 0, 0],
	# 'attention_mask': [1, 1, 1, 1, 1, 1, 1]
	# }

	tokens = encoding.tokens()
	print(tokens) # print decoded word piece tokens

	# Output:
	# ['[CLS]', 'rød', '##grød', 'med', 'fløde', '.', '[SEP]']