• Members 3 posts
    2025年8月4日 13:51

    MACA Monthly Release 3.0.0.x is ready, please refer to developer community to get the latest version.

    Version info:
    - vbios: 1.26.1.0
    - Metax Driver: 3.0.0.5
    - MACA SDK: 3.0.0.8
    - MACA Pytorch: 3.0.0.3shid
    - MACA IREE: 3.0.0.0
    - MACA Container Image: 3.0.0.4
    - Metax K8S: 0.11.1

    Release Content

    Metax Driver
    [FW] [Feature] 增加Power Persistent Mode。
    [FW] [Improvement] 优化metaxlink training失败时的提示信息,便于现场排查故障。
    [KMD] [Feature] 支持Linux内核主线6.13版本。
    [KMD] [Feature] KMD安装时支持模式指定设备文件权限为root:root 0666。
    [KMD] [Feature] 支持可靠的单卡场景Funbird设备功能。
    [KMD] [Improvement] Unload driver期间禁止新任务使用mxxd设备以保证驱动卸载功能正常。
    [KMD] [Improvement] KMD代码在异常情况下打印返回值优化。
    [SMI] [Improvement] 增加单个sGPU调度策略信息的显示。

    Metax SDK
    [UMD] [Feature] mcTracer工具支持预定预先设定的区间。
    [UMD] [Feature] MACA SDK支持运维工具在程序运行过程中开启RPC并attach进来抓取MCPTI数据。
    [UMD] [Feature] mcGraph支持在mcStreamCapture期间手动添加host节点之外的其它类型节点。
    [UMD] [Improvement] 优化mcMemcpyAsync vsize对齐场景的性能,KV Cache 64KB大小的D2D内存拷贝从24us分别优化到graph外10us和graph内7us。
    [UMD] [Improvement] trap工具功能增强,新增支持核函数参数为多维指针结构体类型。
    [UMD] [Improvement] sGPU场景适配功能增强,硬件queue受限场景自动切换到CPU做同步,避免一些潜在的Hang场景。
    [UMD] [Improvement] UMD动态库头文件C++符号发布改进,增加可替代的C接口,并在C++接口增加废弃告警,提示用户尽快切换到相应的C接口。
    [MCCL] [Feature] Full Connection算法支持2卡通信。
    [MCCL] [Improvement] MCCL支持每个rank独立设置不同的VISIBLE DEVICES。
    [MCCL] [Improvement] iGraph] MCCL分层算法支持MACA Graph。
    [MCCL] [Improvement] [DeepEP] 优化internode算法性能并达到理论值。
    [MCCL] [Improvement] [DeepEP] 优化intranode L1算法性能并达到理论值。
    [Compiler] [Improvement] 编译器适配gcc13版本(ubuntu24.04的默认版本)。
    [SW_ACL] [Feature] mcEigen库从Maca SDK包中移除。
    [SW_ACL] [Feature] mcTlass新增time MaskedGroupGemm接口功能支持。
    [SW_ACL] [Feature] mamba初版功能发布。
    [SW_ACL] [Feature] 发布Sage Attention2.1算子库以支持NN等模型推理加速。
    [SW_ACL] [Feature] Flasher优化了Deepseek推理所需MLA decode性能,在EP128的batch32下性能大幅提升。
    [SW_ACL] [Improvement] mcBlasLT库Gemm与通信融合针对Llama/Qwen系列重点大模型训练的性能优化。
    [SW_ACL] [Improvement] mcBlas库bf16/bf16 gemm针对大MNK情景下的性能优化。
    [SW_ACL] [Improvement] mcBlas库针对Deepseek/Qwen3等大模型推理的性能优化。
    [SW_ACL] [Improvement] mcTlass fused gemm针对deepseek性能优化。
    [SW_ACL] [Improvement] mcTlass int8 fused moe扩展了输入参数的支持。

    MACA Pytorch
    [SW_ACL] [Feature] pytorch tf32 gemm/conv 行为修改。
    [SW_ACL] [Feature] FlagTree 出包,支持triton backend。

  • bookmark

    Thread has been pinned globally.

  • bookmark_border

    Thread has been pinned in category.

  • bookmark

    Thread has been pinned globally.