曦云系列通用计算GPU MCCL编程指南

目录

  • 1. 概述
  • 2. 简介
    • 2.1. 系统架构
  • 3. 编程模型
    • 3.1. 通讯器管理
      • 3.1.1. mcclGetVersion
      • 3.1.2. mcclGetUniqueId
      • 3.1.3. mcclCommInitRank
      • 3.1.4. mcclCommInitAll
      • 3.1.5. mcclCommDestroy
      • 3.1.6. mcclCommAbort
      • 3.1.7. mcclGetErrorString
      • 3.1.8. mcclCommGetAsyncError
      • 3.1.9. mcclCommCount
      • 3.1.10. mcclCommMcDevice
      • 3.1.11. mcclCommUserRank
      • 3.1.12. 示例
        • 3.1.12.1. 单进程
        • 3.1.12.2. 多进程
    • 3.2. 集合通讯
      • 3.2.1. mcclAllReduce
      • 3.2.2. mcclBroadcast
      • 3.2.3. mcclReduce
      • 3.2.4. mcclAllGather
      • 3.2.5. mcclReduceScatter
      • 3.2.6. mcclAllToAll
      • 3.2.7. mcclAllToAllv
      • 3.2.8. mcclAllToAlld
      • 3.2.9. 示例
    • 3.3. 组调用
      • 3.3.1. mcclGroupStart
      • 3.3.2. mcclGroupEnd
      • 3.3.3. 示例
    • 3.4. 点对点通讯
      • 3.4.1. mcclSend
      • 3.4.2. mcclRecv
      • 3.4.3. 示例
    • 3.5. 数据类型
    • 3.6. 返回值类型
    • 3.7. 归约操作类型
  • 4. 环境变量
    • 4.1. 推荐环境变量
      • 4.1.1. 多机环境
      • 4.1.2. 极致性能
      • 4.1.3. Arm服务器
      • 4.1.4. 异构集群
      • 4.1.5. 虚拟化场景
      • 4.1.6. C500X机型
      • 4.1.7. 阡视服务器
      • 4.1.8. 大模型通信日志
    • 4.2. 环境变量说明
      • 4.2.1. 功能相关
        • 4.2.1.1. MCCL_DISABLE_OPTIC_LINK
        • 4.2.1.2. MCCL_FAST_WRITE_BACK
        • 4.2.1.3. MCCL_EARLY_WRITE_BACK
        • 4.2.1.4. MCCL_GROUP_WRITE_BACK
        • 4.2.1.5. MCCL_DISABLE_MULTI_NODE_FABRIC
        • 4.2.1.6. MCCL_BUFFSIZE
        • 4.2.1.7. MCCL_DISABLE_CACHEABLE_BUFFER
        • 4.2.1.8. MCCL_THRESHOLD_TO_USE_CACHEABLE_BUFFER
        • 4.2.1.9. MCCL_THRESHOLD_TO_USE_CACHEABLE_BUFFER_P2P
        • 4.2.1.10. MCCL_PCIE_BUFFER_MODE
        • 4.2.1.11. MCCL_TUNING_MODEL
        • 4.2.1.12. MCCL_PROTO
        • 4.2.1.13. MCCL_ALGO
        • 4.2.1.14. MCCL_DMABUF_ENABLE
        • 4.2.1.15. MCCL_EXT_CCL_ENABLE
        • 4.2.1.16. MCCL_HC_PLUGIN
        • 4.2.1.17. MCCL_RINGS
      • 4.2.2. 性能相关
        • 4.2.2.1. MCCL_ENABLE_FC
        • 4.2.2.2. MCCL_ENABLE_FC8_OAM
        • 4.2.2.3. MCCL_FC_BYTE_LIMIT
        • 4.2.2.4. MCCL_FC_MAX_BLOCKS
        • 4.2.2.5. MCCL_FC_DISABLE_REMOTE_READ
        • 4.2.2.6. MCCL_FC_BYTE_LIMIT_DRAGONFLY
        • 4.2.2.7. MCCL_FC_MTLK_BLOCKS
        • 4.2.2.8. MCCL_LIMIT_RING_LL_THREADTHRESHOLDS
        • 4.2.2.9. MCCL_CROSS_NIC
        • 4.2.2.10. MCCL_MIN_NCHANNELS
        • 4.2.2.11. MCCL_MAX_NCHANNELS
        • 4.2.2.12. MCCL_RING_TP8_MODE
        • 4.2.2.13. MCCL_NET_DISABLE_INTRA
        • 4.2.2.14. MCCL_PXN_DISABLE
        • 4.2.2.15. MCCL_MIN_P2P_NCHANNELS
        • 4.2.2.16. MCCL_MAX_P2P_NCHANNELS
        • 4.2.2.17. MCCL_P2P_NCHANNELS
        • 4.2.2.18. MCCL_TUNING_FILE
        • 4.2.2.19. MCCL_TOPO_FILE
        • 4.2.2.20. MCCL_TOPO_DUMP_FILE
        • 4.2.2.21. MCCL_P2P_DISABLE
        • 4.2.2.22. MCCL_P2P_LEVEL
        • 4.2.2.23. MCCL_DF16_RINGS
        • 4.2.2.24. MCCL_IGNORE_CPU_AFFINITY
        • 4.2.2.25. MCCL_RUNTIME_CONNECT
        • 4.2.2.26. MCCL_HFC_EP4_KERNEL_LIMIT
        • 4.2.2.27. MCCL_HFC_EP8_KERNEL_LIMIT
      • 4.2.3. 网络相关
        • 4.2.3.1. MCCL_SHM_DISABLE
        • 4.2.3.2. MCCL_IB_GID_INDEX
        • 4.2.3.3. MCCL_IB_DISABLE
        • 4.2.3.4. MCCL_SOCKET_FAMILY
        • 4.2.3.5. MCCL_SOCKET_IFNAME
        • 4.2.3.6. MCCL_IB_HCA
        • 4.2.3.7. MCCL_NET_GDR_LEVEL
      • 4.2.4. 调试相关
        • 4.2.4.1. MCCL_DEBUG
        • 4.2.4.2. MCCL_DEBUG_SUBSYS
        • 4.2.4.3. MCCL_DEBUG_FILE
      • 4.2.5. UMD相关
        • 4.2.5.1. FORCE_ACTIVE_WAIT
        • 4.2.5.2. MACA_LAUNCH_BLOCKING
        • 4.2.5.3. MACA_VISIBLE_DEVICES
        • 4.2.5.4. MACA_DEVICE_ORDER
        • 4.2.5.5. MXLOG_LEVEL
        • 4.2.5.6. MACA_LAUNCH_MODE
        • 4.2.5.7. MACA_MPS_MODE
        • 4.2.5.8. MACA_DIRECT_DISPATCH
      • 4.2.6. 工具相关
        • 4.2.6.1. MX_TRACER_ENABLED_MCPTI
        • 4.2.6.2. MCCL_OPTIMIZATION_A2A
        • 4.2.6.3. P2P_MODE
  • 5. 附录
    • 5.1. 调试信息
      • 5.1.1. 共享内存
    • 5.2. 术语/缩略语
曦云系列通用计算GPU MCCL编程指南
  • 搜索


© 版权所有 2025 沐曦集成电路(上海)股份有限公司。保留所有权利。