• Members 3 posts
    2025年6月27日 14:16

    注意到mctlass库中使用了一些builtin函数,但是没有找到说明,也没有头文件,类似这样

    __builtin_mxc_mov_raw_shfl
    __builtin_mxc_byte_perm
    __builtin_mxc_load_global_async128
    
    __builtin_mxc_arrive
    __builtin_mxc_stg_b32_predicator
    __builtin_mxc_stg_b64_predicator
    __builtin_mxc_stg_b128_predicator
    __builtin_mxc_ldg_b128_predicator
    __builtin_mxc_ldg_b64_predicator
    __builtin_mxc_ldg_b32_predicator
    __builtin_mxc_barrier_inst
    
    __builtin_mxc_load_global_async128
    __builtin_mxc_barrier
    __builtin_mxc_ldg_b32_bsm_predicator
    __builtin_mxc_ldg_b64_bsm_predicator
    __builtin_mxc_ldg_b128_bsm_predicator
    __builtin_mxc_ldg_b96_predicator
    

    能否提供一些文档说明,或者sample介绍一下这些函数的功能,用法,谢谢

  • Members 2 posts
    2025年6月27日 16:31

    后续会在《MACA C++编程指南》中增加这些builtin函数的说明

  • Members 3 posts
    2025年6月27日 18:15

    好的,关于kernel性能优化,你们有什么工具能给出详细一些的分析吗,目前我看mcProfiler只能看到一些整体的性能问题,没法给出具体位置的定位,当期我通过逐段注释的方法来定位性能瓶颈,比较麻烦,最好是能有一个例子,介绍一下你们做性能分析的方法,使用什么工具,谢谢。

  • 2025年6月30日 14:52

    性能优化的专业性指导请联系沐曦商务或对口的沐曦FAE

  • Members 3 posts
    2025年7月2日 14:39

    谢谢,再请教一下,有办法限制kernel的寄存器使用量吗,我发现一段代码,分成2段,单独测试寄存器每一段寄存器使用量都很少,但是我把它们合并到一起,寄存器使用量就增加了非常多,我试了用__launch_bounds__(256, 4)这样的方式加以限制,但是编译的时候显示: warning: set minimum blocks' number is illegal in Maca and the value will be ignored [-Wmaca-min-blocks-per-multiprocessor]