请问下 modelscope.cn/models/metax-tech/DeepSeek-V4-Flash-FlexSMQ-AWQ-W8A8 这个量化模型在8卡沐曦C500上是否能够部署,如果要部署应使用哪个镜像,使用什么参数启动?
请问下 modelscope.cn/models/metax-tech/DeepSeek-V4-Flash-FlexSMQ-AWQ-W8A8 这个量化模型在8卡沐曦C500上是否能够部署,如果要部署应使用哪个镜像,使用什么参数启动?
尊敬的开发者您好,八卡C500可运行。部署镜像由于有时效期限制,请开启个人主题获取,右上角倒数第三个图标,收件人写shuai_chen。
vllm参数启动命令
export MACA_SMALL_PAGESIZE_ENABLE=1
export MACA_VLLM_ENABLE_MCTLASS_FUSED_MOE=1
export MACA_VLLM_ENABLE_MCTLASS_PYTHON_API=1
vllm serve /data/models/model_quant_opt/DeepSeek/DeepSeek-V4-flash_W8A8/ --trust-remote-code \
--kv-cache-dtype bfloat16 --block-size 256 --gpu-memory-utilization 0.85 \
--tokenizer-mode deepseek_v4 --tool-call-parser deepseek_v4 \
--enable-auto-tool-choice --reasoning-parser deepseek_v4 \
--compilation-config '{"cudagraph_mode":"FULL_AND_PIECEWISE", "custom_ops":["all"]}' \
--max-num-seq 32 -tp 8 --speculative_config '{"method": "mtp", "num_speculative_tokens": 1}'
请问这个模型的部署镜像能在软件下载-镜像里直接下吗?
尊敬的开发者您好,部署镜像由于有时效期限制,请开启个人主题获取,右上角倒数第三个图标,收件人写shuai_chen。