DeepSeek-V4-Flash 量化部署

link

e411
Members 15 posts

2026年5月8日 20:45 2026年5月8日 20:45
link

请问下 modelscope.cn/models/metax-tech/DeepSeek-V4-Flash-FlexSMQ-AWQ-W8A8 这个量化模型在8卡沐曦C500上是否能够部署，如果要部署应使用哪个镜像，使用什么参数启动？
arrow_forward
Thread has been moved from 产品&运维.
- By shuai_chen on 2026年5月9日 15:35.

Members 650 posts

2026年5月9日 15:39 2026年5月9日 15:39

尊敬的开发者您好，八卡C500可运行。部署镜像由于有时效期限制，请开启个人主题获取，右上角倒数第三个图标，收件人写shuai_chen。
vllm参数启动命令

export MACA_SMALL_PAGESIZE_ENABLE=1
export MACA_VLLM_ENABLE_MCTLASS_FUSED_MOE=1
export MACA_VLLM_ENABLE_MCTLASS_PYTHON_API=1


vllm serve /data/models/model_quant_opt/DeepSeek/DeepSeek-V4-flash_W8A8/ --trust-remote-code \
--kv-cache-dtype bfloat16 --block-size 256 --gpu-memory-utilization 0.85 \
--tokenizer-mode deepseek_v4 --tool-call-parser deepseek_v4 \
--enable-auto-tool-choice --reasoning-parser deepseek_v4 \
--compilation-config '{"cudagraph_mode":"FULL_AND_PIECEWISE", "custom_ops":["all"]}' \
--max-num-seq 32 -tp 8 --speculative_config '{"method": "mtp", "num_speculative_tokens": 1}'

link

XiangShangBa
Members 1 post

2026年5月13日 10:31 2026年5月13日 10:31
link

请问这个模型的部署镜像能在软件下载-镜像里直接下吗？
link

shuai_chen
Members 650 posts

2026年5月13日 10:34 2026年5月13日 10:34
link

尊敬的开发者您好，部署镜像由于有时效期限制，请开启个人主题获取，右上角倒数第三个图标，收件人写shuai_chen。
arrow_forward
Thread has been moved from 解决中.
- By shuai_chen on 2026年5月20日 11:54.