C500, 单卡,可以跑Qwen3.6的哪个量化版本? 如果跑不了,跑哪个模型最优?
C500, 单卡,可以跑Qwen3.6的哪个量化版本? 如果跑不了,跑哪个模型最优?
尊敬的开发者您好,可以支持,Qwen3.6-27B-W8A8www.modelscope.cn/models/metax-tech/Qwen3.6-27B-W8A8
python3 -m sglang.launch_server \
--model-path /root/models/Qwen3.6-27B-W8A8 \
--host 0.0.0.0 \
--port 30000 \
--tp-size 1 我这样启动后,GPU显存占用了55G, 怎么优化?
尊敬的开发者您好,请减少模型上下文长度尝试
python3 -m sglang.launch_server \
--model-path /root/models/Qwen3.6-27B-W8A8 \
--host 0.0.0.0 \
--port 30000 \
--tp-size 1 如何支持 function_calling