目录
- 1. 概述
- 2. C++ 语言扩展
- 2.1. 函数执行空间标识符
- 2.2. 变量存储空间标识符
- 2.3. 内置类型
- 2.4. 内置向量类型
- 2.5. 内置变量
- 2.6. Memory Fence函数
- 2.7. 同步函数
- 2.8. 数学函数
- 2.8.1. 半精度(half)算术函数
- 2.8.2. half2算术函数
- 2.8.3. half比较函数
- 2.8.4. half2比较函数
- 2.8.5. 半精度转换与数据移动函数
- 2.8.6. half数学函数
- 2.8.7. half2数学函数
- 2.8.8. Bfloat16算术函数
- 2.8.9. Bfloat162算术函数
- 2.8.10. Bfloat16比较函数
- 2.8.11. Bfloat162比较函数
- 2.8.12. Bfloat16精度转换与数据移动函数
- 2.8.13. Bfloat16数学函数
- 2.8.14. Bfloat162数学函数
- 2.8.15. 单精度数学函数
- 2.8.16. 双精度数学函数
- 2.8.17. 整数型度数学函数
- 2.8.18. 单精度intrinsic
- 2.8.19. 双精度intrinsic
- 2.8.20. 整数型intrinsic
- 2.8.21. 类型转换intrinsic
- 2.8.22. SIMD intrinsic
- 2.9. Texture函数
- 2.10. 只读数据缓存区加载函数
- 2.11. 使用缓存提示的加载函数
- 2.12. 使用缓存提示的存储函数
- 2.13. 时间函数
- 2.14. Atomic函数
- 2.15. 地址空间谓词函数
- 2.16. 地址空间转换函数
- 2.17. Alloca函数
- 2.18. 编译器内置函数
- 2.18.1. __builtin_assume_aligned()
- 2.18.2. __builtin_assume()
- 2.18.3. __assume()
- 2.18.4. __builtin_expect()
- 2.18.5. __builtin_unreachable()
- 2.18.6. __builtin_mxc_byte_perm
- 2.18.7. __builtin_mxc_load_global_async
- 2.18.8. __builtin_mxc_arrive
- 2.18.9. __builtin_mxc_arrive_gvmcnt
- 2.18.10. __builtin_mxc_arrive_bsmcnt
- 2.18.11. __builtin_mxc_barrier
- 2.18.12. __builtin_mxc_barrier_inst
- 2.18.13. __builtin_mxc_ldg_*_predicator
- 2.18.14. __builtin_mxc_stg_*_predicator
- 2.19. Warp Vote函数
- 2.20. Warp Match函数
- 2.21. Warp Reduce函数
- 2.22. Warp Shuffle函数
- 2.23. Nanosleep函数
- 2.24. Warp matrix函数
- 2.25. Asynchronous Data Copies
- 2.26. Assert函数
- 2.27. Trap函数
- 2.28. Breakpoint函数
- 2.29. 格式化输出
- 2.30. 动态Global内存操作
- 2.31. 执行配置
- 2.32. Launch Bounds(启动边界)
- 2.33. #pragma unroll
- 2.34. 关于内联汇编
- 3. Cooperative Groups
- 4. C++ 语言支持