好的 感谢
vllm或者sglang都可以,请问在沐曦平台上这两个推理引擎支持的量化格式有区别吗?
感谢回复,
modelscope上有沐曦上传的一些量化模型,但是不能覆盖全部需求,所以希望获取到量化工具
目前的需求是ERNIE-4.5-300B-A47B这个模型,下载链接:modelscope.cn/models/PaddlePaddle/ERNIE-4.5-300B-A47B-PT
您好,
由于在沐曦镜像中无法直接安装官方版本的llmcompressor,想问一下如何在沐曦GPU上进行BF16到W8A8的模型量化,感谢!
感谢您回复,我尝试用ptx2cpp把ptx转成c++代码,但是还是无法工作。
我的场景是使用内存栅栏进行多GPU同步,GPU0上的kernel需要写入GPU1的内存(指针通过IPC handler获取),然后GPU1在kernel内检查到写入。ptx2cpp的建议是使用__threadfence(文档也是如此建议的),并且使用volatile修饰对应的指针,但是尝试后仍然无法在GPU1的kernel中读到写入(kernel结束后检查结果可以看到写入)。
由于沐曦并没有开源通信库相关的代码,想请教一下跨GPU的可见写入是如何实现的。
还有一个关于多进程并发内存一致性的问题想请教:
在 GPU0 的 kernel 中,希望等待 GPU1 对某个内存位置完成写入,即 GPU0 不断轮询(读取) global memory 上的某个地址,直到 GPU1 写入完成。
从我的测试结果来看,现有的内存一致性模型似乎并不支持这种跨 GPU 的同步方式?文档里面好像没有这方面的介绍,有什么好的方法可以实现GPU之间的同步吗。
你好,
我注意到沐曦编程目前不支持插入内联汇编,我想知道是否有办法实现类似的功能。比如带st.release.sys.global和st.acquire.sys.global这样的语义在沐曦平台上该如何实现呢?
感谢