sasasin · May 3, 2026 07:51
diff --git a/start-llama-server.sh b/start-llama-server.sh
 #!/bin/bash
 # メインメモリ 64GB, NVIDIA RTX 5070 (12GB) で、VRAM に若干の安全バッファを設けつつ、cmoe を増やしても性能改善しないラインで各パラメータ指定した。
 # llama-bench で cmoe, b, c を変化させつつ様子を見て決めた
 llama-server.exe \
 -m "${USERPROFILE}\.lmstudio\models\unsloth\Qwen3.6-35B-A3B-GGUF\Qwen3.6-35B-A3B-MXFP4_MOE.gguf" \
 -ngl 99 \
 -ncmoe 32 \
 -c 262144 \
 -fa on \
 --cache-type-k q4_0 \
 --cache-type-v q4_0 \
 -b 512 \
 -ub 512 \
 -t 12 \
 -tb 12 \
 -np 1 \
 --host 127.0.0.1 \
 --port 1234 \
 --metrics &
	#!/bin/bash
	# メインメモリ 64GB, NVIDIA RTX 5070 (12GB) で、VRAM に若干の安全バッファを設けつつ、cmoe を増やしても性能改善しないラインで各パラメータ指定した。
	# llama-bench で cmoe, b, c を変化させつつ様子を見て決めた
	llama-server.exe \
	-m "${USERPROFILE}\.lmstudio\models\unsloth\Qwen3.6-35B-A3B-GGUF\Qwen3.6-35B-A3B-MXFP4_MOE.gguf" \
	-ngl 99 \
	-ncmoe 32 \
	-c 262144 \
	-fa on \
	--cache-type-k q4_0 \
	--cache-type-v q4_0 \
	-b 512 \
	-ub 512 \
	-t 12 \
	-tb 12 \
	-np 1 \
	--host 127.0.0.1 \
	--port 1234 \
	--metrics &
No results found