您好,
由于在沐曦镜像中无法直接安装官方版本的llmcompressor,想问一下如何在沐曦GPU上进行BF16到W8A8的模型量化,感谢!
您好,
由于在沐曦镜像中无法直接安装官方版本的llmcompressor,想问一下如何在沐曦GPU上进行BF16到W8A8的模型量化,感谢!
尊敬的开发者您好,请提供具体的模型名称以及链接。
感谢回复,
modelscope上有沐曦上传的一些量化模型,但是不能覆盖全部需求,所以希望获取到量化工具
目前的需求是ERNIE-4.5-300B-A47B这个模型,下载链接:modelscope.cn/models/PaddlePaddle/ERNIE-4.5-300B-A47B-PT
尊敬的开发者您好,您是用哪个框架进行推理。
vllm或者sglang都可以,请问在沐曦平台上这两个推理引擎支持的量化格式有区别吗?
尊敬的开发者您好,vllm和sglang量化脚本不同,生成量化后的权重也不同,不能互用。量化方式请联系相关商务接口人申请技术支持!
好的 感谢