Mark krammnic

ML Researcher. Except of the research, working on @pytorch torchtune.

12 followers · 1 following

https://orcid.org/0009-0006-6195-1848

View GitHub Profile

Recently created

Least recently created

Recently updated

Least recently updated

krammnic / trim.py

Created June 5, 2025 22:56

	from transformers import AutoTokenizer

	mname = "google/gemma-2-2b-it" # or any checkpoint that has a fast tokenizer.
	vocab_keep_items = 5000

	tokenizer = AutoTokenizer.from_pretrained(mname)
	assert tokenizer.is_fast, "This only works for fast tokenizers."
	tokenizer.save_pretrained("big-tokenizer")
	# Should be a generator of list of texts.
	training_corpus = [

krammnic / .py

Created June 5, 2025 22:36

compress tokenizer


	from torchtune.data import Message
	from torchtune.modules.transforms.tokenizers import HuggingFaceModelTokenizer

	TOKENIZER_CONFIG_PATH = "tokenizer_config_gemma.json"
	GENERATION_CONFIG_PATH = "generation_config_gemma.json"
	TOKENIZER_PATH = "tokenizer_gemma_cropped.json"

	def test_huggingface_model_tokenizer():
	try: