Skip to content

Instantly share code, notes, and snippets.

@sasasin
Created May 3, 2026 07:51
Show Gist options
  • Select an option

  • Save sasasin/71eeec2dcb20ede6a46e7f13216a6f45 to your computer and use it in GitHub Desktop.

Select an option

Save sasasin/71eeec2dcb20ede6a46e7f13216a6f45 to your computer and use it in GitHub Desktop.
llama-server をイイかんじに起動するパラメータ指定
#!/bin/bash
# メインメモリ 64GB, NVIDIA RTX 5070 (12GB) で、VRAM に若干の安全バッファを設けつつ、cmoe を増やしても性能改善しないラインで各パラメータ指定した。
# llama-bench で cmoe, b, c を変化させつつ様子を見て決めた
llama-server.exe \
-m "${USERPROFILE}\.lmstudio\models\unsloth\Qwen3.6-35B-A3B-GGUF\Qwen3.6-35B-A3B-MXFP4_MOE.gguf" \
-ngl 99 \
-ncmoe 32 \
-c 262144 \
-fa on \
--cache-type-k q4_0 \
--cache-type-v q4_0 \
-b 512 \
-ub 512 \
-t 12 \
-tb 12 \
-np 1 \
--host 127.0.0.1 \
--port 1234 \
--metrics &
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment