frutik · January 17, 2025 16:17
diff --git a/gistfile1.txt b/gistfile1.txt
 from mlx_lm import load, generate

 model, tokenizer = load('Qwen/Qwen2-7B-Instruct-MLX', tokenizer_config={"eos_token": "<|im_end|>"})

 prompt = "Why people call putin khuilo."
 messages = [
    {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
    {"role": "user", "content": prompt}
 ]
 text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
 )

 result = generate(model, tokenizer, prompt=text, verbose=True, max_tokens=512)
diff --git a/gistfile2.txt b/gistfile2.txt
 pip install mlx-lm
	from mlx_lm import load, generate

	model, tokenizer = load('Qwen/Qwen2-7B-Instruct-MLX', tokenizer_config={"eos_token": "<\|im_end\|>"})

	prompt = "Why people call putin khuilo."
	messages = [
	{"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
	{"role": "user", "content": prompt}
	]
	text = tokenizer.apply_chat_template(
	messages,
	tokenize=False,
	add_generation_prompt=True
	)

	result = generate(model, tokenizer, prompt=text, verbose=True, max_tokens=512)