524c · October 7, 2025 03:42
diff --git a/prompt.py b/prompt.py
 import argparse
 from mlx_lm import load, generate

 # Parse CLI arguments
 parser = argparse.ArgumentParser()
 parser.add_argument("--prompt", type=str, default="hello", help="Custom prompt text")
 parser.add_argument("--max-tokens", type=int, default=1024, help="Maximum number of tokens to generate")
 args = parser.parse_args()

 # Load model
 model, tokenizer = load("mlx-community/Qwen3-Next-80B-A3B-Instruct-8bit")

 prompt = args.prompt

 # If the tokenizer supports chat templates, wrap input
 if tokenizer.chat_template is not None:
    messages = [{"role": "user", "content": prompt}]
    prompt = tokenizer.apply_chat_template(
        messages, add_generation_prompt=True
    )

 # Generate response
 response = generate(
    model,
    tokenizer,
    prompt=prompt,
    verbose=True,
    max_tokens=args.max_tokens
 )
	import argparse
	from mlx_lm import load, generate

	# Parse CLI arguments
	parser = argparse.ArgumentParser()
	parser.add_argument("--prompt", type=str, default="hello", help="Custom prompt text")
	parser.add_argument("--max-tokens", type=int, default=1024, help="Maximum number of tokens to generate")
	args = parser.parse_args()

	# Load model
	model, tokenizer = load("mlx-community/Qwen3-Next-80B-A3B-Instruct-8bit")

	prompt = args.prompt

	# If the tokenizer supports chat templates, wrap input
	if tokenizer.chat_template is not None:
	messages = [{"role": "user", "content": prompt}]
	prompt = tokenizer.apply_chat_template(
	messages, add_generation_prompt=True
	)

	# Generate response
	response = generate(
	model,
	tokenizer,
	prompt=prompt,
	verbose=True,
	max_tokens=args.max_tokens
	)