ariG23498 · March 6, 2025 07:39 · ariG23498 · Mar 6, 2025
diff --git a/qwq_32b_nf4.py b/qwq_32b_nf4.py
 !pip install -Uq transformers bitsandbytes

 import torch
 from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
 )

 model_name = "ariG23498/QwQ-32B-nf4"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto",
 )

 prompt = "How many r's are in the word \"strawberry\""
 messages = [
    {"role": "user", "content": prompt}
 ]
 text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
 )

 model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
 with torch.no_grad():
    generated_ids = model.generate(
        **model_inputs,
        max_new_tokens=32768,
    )

 generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
 ]

 response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
 print(response)
	!pip install -Uq transformers bitsandbytes

	import torch
	from transformers import (
	AutoModelForCausalLM,
	AutoTokenizer,
	)

	model_name = "ariG23498/QwQ-32B-nf4"
	tokenizer = AutoTokenizer.from_pretrained(model_name)
	model = AutoModelForCausalLM.from_pretrained(
	model_name,
	torch_dtype="auto",
	device_map="auto",
	)

	prompt = "How many r's are in the word \"strawberry\""
	messages = [
	{"role": "user", "content": prompt}
	]
	text = tokenizer.apply_chat_template(
	messages,
	tokenize=False,
	add_generation_prompt=True
	)

	model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
	with torch.no_grad():
	generated_ids = model.generate(
	**model_inputs,
	max_new_tokens=32768,
	)

	generated_ids = [
	output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
	]

	response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
	print(response)