曦云系列通用GPU MCCL编程指南
1. 概述
2. 简介
2.1. 系统架构
3. 编程模型
3.1. 通讯器管理
3.1.1. mcclGetVersion
3.1.2. mcclGetUniqueId
3.1.3. mcclCommInitRank
3.1.4. mcclCommInitAll
3.1.5. mcclCommDestroy
3.1.6. mcclCommAbort
3.1.7. mcclGetErrorString
3.1.8. mcclCommGetAsyncError
3.1.9. mcclCommCount
3.1.10. mcclCommMcDevice
3.1.11. mcclCommUserRank
3.1.12. 示例
3.1.12.1. 单进程
3.1.12.2. 多进程
3.2. 集合通讯
3.2.1. mcclAllReduce
3.2.2. mcclBroadcast
3.2.3. mcclReduce
3.2.4. mcclAllGather
3.2.5. mcclReduceScatter
3.2.6. mcclAllToAll
3.2.7. mcclAllToAllv
3.2.8. mcclAllToAlld
3.2.9. 示例
3.3. 组调用
3.3.1. mcclGroupStart
3.3.2. mcclGroupEnd
3.3.3. 示例
3.4. 点对点通讯
3.4.1. mcclSend
3.4.2. mcclRecv
3.4.3. 示例
3.5. 数据类型
3.6. 返回值类型
3.7. 归约操作类型
4. 环境变量
4.1. 推荐环境变量
4.1.1. 多机环境
4.1.2. 极致性能
4.1.3. Arm服务器
4.1.4. 异构集群
4.1.5. 虚拟化场景
4.1.6. C500X机型
4.1.7. 阡视服务器
4.1.8. 大模型通信日志
4.2. 环境变量说明
4.2.1. 功能相关
4.2.1.1. MCCL_DISABLE_OPTIC_LINK
4.2.1.2. MCCL_FAST_WRITE_BACK
4.2.1.3. MCCL_EARLY_WRITE_BACK
4.2.1.4. MCCL_GROUP_WRITE_BACK
4.2.1.5. MCCL_DISABLE_MULTI_NODE_FABRIC
4.2.1.6. MCCL_BUFFSIZE
4.2.1.7. MCCL_DISABLE_CACHEABLE_BUFFER
4.2.1.8. MCCL_THRESHOLD_TO_USE_CACHEABLE_BUFFER
4.2.1.9. MCCL_THRESHOLD_TO_USE_CACHEABLE_BUFFER_P2P
4.2.1.10. MCCL_PCIE_BUFFER_MODE
4.2.1.11. MCCL_TUNING_MODEL
4.2.1.12. MCCL_PROTO
4.2.1.13. MCCL_ALGO
4.2.1.14. MCCL_DMABUF_ENABLE
4.2.1.15. MCCL_EXT_CCL_ENABLE
4.2.1.16. MCCL_HC_PLUGIN
4.2.1.17. MCCL_RINGS
4.2.2. 性能相关
4.2.2.1. MCCL_ENABLE_FC
4.2.2.2. MCCL_ENABLE_FC8_OAM
4.2.2.3. MCCL_FC_BYTE_LIMIT
4.2.2.4. MCCL_FC_MAX_BLOCKS
4.2.2.5. MCCL_FC_DISABLE_REMOTE_READ
4.2.2.6. MCCL_FC_BYTE_LIMIT_DRAGONFLY
4.2.2.7. MCCL_FC_MTLK_BLOCKS
4.2.2.8. MCCL_LIMIT_RING_LL_THREADTHRESHOLDS
4.2.2.9. MCCL_CROSS_NIC
4.2.2.10. MCCL_MIN_NCHANNELS
4.2.2.11. MCCL_MAX_NCHANNELS
4.2.2.12. MCCL_RING_TP8_MODE
4.2.2.13. MCCL_NET_DISABLE_INTRA
4.2.2.14. MCCL_PXN_DISABLE
4.2.2.15. MCCL_MIN_P2P_NCHANNELS
4.2.2.16. MCCL_MAX_P2P_NCHANNELS
4.2.2.17. MCCL_P2P_NCHANNELS
4.2.2.18. MCCL_TUNING_FILE
4.2.2.19. MCCL_TOPO_FILE
4.2.2.20. MCCL_TOPO_DUMP_FILE
4.2.2.21. MCCL_P2P_DISABLE
4.2.2.22. MCCL_P2P_LEVEL
4.2.2.23. MCCL_DF16_RINGS
4.2.2.24. MCCL_IGNORE_CPU_AFFINITY
4.2.2.25. MCCL_RUNTIME_CONNECT
4.2.2.26. MCCL_HFC_EP4_KERNEL_LIMIT
4.2.2.27. MCCL_HFC_EP8_KERNEL_LIMIT
4.2.3. 网络相关
4.2.3.1. MCCL_SHM_DISABLE
4.2.3.2. MCCL_IB_GID_INDEX
4.2.3.3. MCCL_IB_DISABLE
4.2.3.4. MCCL_SOCKET_FAMILY
4.2.3.5. MCCL_SOCKET_IFNAME
4.2.3.6. MCCL_IB_HCA
4.2.3.7. MCCL_NET_GDR_LEVEL
4.2.4. 调试相关
4.2.4.1. MCCL_DEBUG
4.2.4.2. MCCL_DEBUG_SUBSYS
4.2.4.3. MCCL_DEBUG_FILE
4.2.5. UMD相关
4.2.5.1. FORCE_ACTIVE_WAIT
4.2.5.2. MACA_LAUNCH_BLOCKING
4.2.5.3. MACA_VISIBLE_DEVICES
4.2.5.4. MACA_DEVICE_ORDER
4.2.5.5. MXLOG_LEVEL
4.2.5.6. MACA_LAUNCH_MODE
4.2.5.7. MACA_MPS_MODE
4.2.5.8. MACA_DIRECT_DISPATCH
4.2.6. 工具相关
4.2.6.1. MX_TRACER_ENABLED_MCPTI
4.2.6.2. MCCL_OPTIMIZATION_A2A
4.2.6.3. P2P_MODE
5. 附录
5.1. 调试信息
5.1.1. 共享内存
5.2. 术语/缩略语
曦云系列通用GPU MCCL编程指南
索引
索引