MetaX-Tech Developer Forum 论坛首页
  • 沐曦开发者
search
Sign in

lvby

  • Members
  • Joined 2026年1月16日
  • message 帖子
  • forum 主题
  • favorite 关注者
  • favorite_border Follows
  • person_outline 详细信息

lvby has posted 8 messages.

  • See post chevron_right
    lvby
    Members
    求助模型量化镜像或软件 已解决 2026年2月6日 08:59

    好的 感谢

  • See post chevron_right
    lvby
    Members
    求助CUDA中插入ptx的替代方法 已解决 2026年2月6日 08:51

    没解决,这个暂时搁置了。

  • See post chevron_right
    lvby
    Members
    求助模型量化镜像或软件 已解决 2026年2月2日 17:01

    vllm或者sglang都可以,请问在沐曦平台上这两个推理引擎支持的量化格式有区别吗?

  • See post chevron_right
    lvby
    Members
    求助模型量化镜像或软件 已解决 2026年2月2日 16:38

    感谢回复,
    modelscope上有沐曦上传的一些量化模型,但是不能覆盖全部需求,所以希望获取到量化工具
    目前的需求是ERNIE-4.5-300B-A47B这个模型,下载链接:modelscope.cn/models/PaddlePaddle/ERNIE-4.5-300B-A47B-PT

  • See post chevron_right
    lvby
    Members
    求助模型量化镜像或软件 已解决 2026年1月29日 15:35

    您好,
    由于在沐曦镜像中无法直接安装官方版本的llmcompressor,想问一下如何在沐曦GPU上进行BF16到W8A8的模型量化,感谢!

  • See post chevron_right
    lvby
    Members
    求助CUDA中插入ptx的替代方法 已解决 2026年1月26日 10:16

    感谢您回复,我尝试用ptx2cpp把ptx转成c++代码,但是还是无法工作。
    我的场景是使用内存栅栏进行多GPU同步,GPU0上的kernel需要写入GPU1的内存(指针通过IPC handler获取),然后GPU1在kernel内检查到写入。ptx2cpp的建议是使用__threadfence(文档也是如此建议的),并且使用volatile修饰对应的指针,但是尝试后仍然无法在GPU1的kernel中读到写入(kernel结束后检查结果可以看到写入)。
    由于沐曦并没有开源通信库相关的代码,想请教一下跨GPU的可见写入是如何实现的。

  • See post chevron_right
    lvby
    Members
    求助CUDA中插入ptx的替代方法 已解决 2026年1月22日 20:36

    还有一个关于多进程并发内存一致性的问题想请教:
    在 GPU0 的 kernel 中,希望等待 GPU1 对某个内存位置完成写入,即 GPU0 不断轮询(读取) global memory 上的某个地址,直到 GPU1 写入完成。
    从我的测试结果来看,现有的内存一致性模型似乎并不支持这种跨 GPU 的同步方式?文档里面好像没有这方面的介绍,有什么好的方法可以实现GPU之间的同步吗。

  • See post chevron_right
    lvby
    Members
    求助CUDA中插入ptx的替代方法 已解决 2026年1月16日 10:33

    你好,
    我注意到沐曦编程目前不支持插入内联汇编,我想知道是否有办法实现类似的功能。比如带st.release.sys.global和st.acquire.sys.global这样的语义在沐曦平台上该如何实现呢?

    感谢

  • 沐曦开发者论坛
powered by misago