Posts | lvby | 沐曦开发者论坛

See post chevron_right

lvby
Members

求助模型量化镜像或软件已解决 2026年2月6日 08:59

好的感谢
See post chevron_right

lvby
Members

求助CUDA中插入ptx的替代方法已解决 2026年2月6日 08:51

没解决，这个暂时搁置了。
See post chevron_right

lvby
Members

求助模型量化镜像或软件已解决 2026年2月2日 17:01

vllm或者sglang都可以，请问在沐曦平台上这两个推理引擎支持的量化格式有区别吗？
See post chevron_right

lvby
Members

求助模型量化镜像或软件已解决 2026年2月2日 16:38

感谢回复，
modelscope上有沐曦上传的一些量化模型，但是不能覆盖全部需求，所以希望获取到量化工具
目前的需求是ERNIE-4.5-300B-A47B这个模型，下载链接：modelscope.cn/models/PaddlePaddle/ERNIE-4.5-300B-A47B-PT
See post chevron_right

lvby
Members

求助模型量化镜像或软件已解决 2026年1月29日 15:35

您好，
由于在沐曦镜像中无法直接安装官方版本的llmcompressor，想问一下如何在沐曦GPU上进行BF16到W8A8的模型量化，感谢！
See post chevron_right

lvby
Members

求助CUDA中插入ptx的替代方法已解决 2026年1月26日 10:16

感谢您回复，我尝试用ptx2cpp把ptx转成c++代码，但是还是无法工作。
我的场景是使用内存栅栏进行多GPU同步，GPU0上的kernel需要写入GPU1的内存(指针通过IPC handler获取)，然后GPU1在kernel内检查到写入。ptx2cpp的建议是使用__threadfence(文档也是如此建议的)，并且使用volatile修饰对应的指针，但是尝试后仍然无法在GPU1的kernel中读到写入(kernel结束后检查结果可以看到写入)。
由于沐曦并没有开源通信库相关的代码，想请教一下跨GPU的可见写入是如何实现的。
See post chevron_right

lvby
Members

求助CUDA中插入ptx的替代方法已解决 2026年1月22日 20:36

还有一个关于多进程并发内存一致性的问题想请教：
在 GPU0 的 kernel 中，希望等待 GPU1 对某个内存位置完成写入，即 GPU0 不断轮询（读取） global memory 上的某个地址，直到 GPU1 写入完成。
从我的测试结果来看，现有的内存一致性模型似乎并不支持这种跨 GPU 的同步方式？文档里面好像没有这方面的介绍，有什么好的方法可以实现GPU之间的同步吗。
See post chevron_right

lvby
Members

求助CUDA中插入ptx的替代方法已解决 2026年1月16日 10:33

你好，
我注意到沐曦编程目前不支持插入内联汇编，我想知道是否有办法实现类似的功能。比如带st.release.sys.global和st.acquire.sys.global这样的语义在沐曦平台上该如何实现呢？

感谢