注意到mctlass库中使用了一些builtin函数,但是没有找到说明,也没有头文件,类似这样
__builtin_mxc_mov_raw_shfl
__builtin_mxc_byte_perm
__builtin_mxc_load_global_async128
__builtin_mxc_arrive
__builtin_mxc_stg_b32_predicator
__builtin_mxc_stg_b64_predicator
__builtin_mxc_stg_b128_predicator
__builtin_mxc_ldg_b128_predicator
__builtin_mxc_ldg_b64_predicator
__builtin_mxc_ldg_b32_predicator
__builtin_mxc_barrier_inst
__builtin_mxc_load_global_async128
__builtin_mxc_barrier
__builtin_mxc_ldg_b32_bsm_predicator
__builtin_mxc_ldg_b64_bsm_predicator
__builtin_mxc_ldg_b128_bsm_predicator
__builtin_mxc_ldg_b96_predicator
能否提供一些文档说明,或者sample介绍一下这些函数的功能,用法,谢谢