MACA Monthly Release 2.33.0.x is ready, please refer to developer community to get the latest version.
Version info:
- Metax vbios: 1.25.1.0
- Metax Driver: 2.33.0.9
- MACA SDK: 2.33.0.12
- MACA Pytorch: 2.33.0.5
- Metax IREE: 2.33.0.0
Release Content
Metax Driver
- [KMD] [Improved] 提供KMD错误码,并打印到日志。
- [KMD] [Improvement] KMD提供ECC errors的统计和显示。
- [KMD] [Improvement] 支持使用只读方式打开文件,进行Host2Device拷贝操作。
- [SMI] [Feature] 提供sGPU模式的-i 参数功能,显示一台服务器上所有sGPU实例。
- [SMI] [Feature] 提供对sGPU调度队列的优先级设置,增加运维调度的可配置灵活性。
- [SMI] [Improvement] SMI提供ECC errors的统计和显示。
- [SMI] [Improvement] SMI拓扑显示支持国产网卡。
- [SMI] [Improvement] SMI升级Firmware前,增加检查服务器MMIO地址空间的逻辑,避免识别不准恢复的问题。
- [SMI] [Improvement] 整合芯片和板卡SN号,显存型号和大小的信息显示。
MACA SDK
- [mxExporter] [Improvement] mx-exporter上报EID,ECC error指标。
- [mxExporter] [Improvement] mx-exporter上报mxk AER,收发总字节指标。
- [UMD] [Feature] MCPTI支持NVTX3_FUNC_WITH_PARAMS API。
- [UMD] [Improvement] MCPTI支持Graph实例化后再开启Pytorch Profiling。
- [UMD] [Improvement] mcpti支持single-block方式配置perfcounter。
- [UMD] [Improvement] 支持当GPU资源不满足用户配置的MACA_CONFIGURATOR_QUEUE_PRIORITY时,自动根据可用硬件Queue数目修改配置的优先级配置。
- [UMD] [Improvement] 调试功能增强:支持通过配置文件设置kernel名字,使得该kernel所在rodata为readonly,便于调试内存踩踏问题。
- [UMD] [Improvement] 提供UMD错误代码,并打印到日志。
- [MCCL] [Feature] 通信库支持DeepPE64通信。
- [MCCL] [Feature] TransferReduce增加RDMA链路检测功能,用于检测集群网络可用性。
- [MCCL] [Improvement] OAM机型默认开启PCIE链路通信,通信性能提升10%-20%。
- [MCCL] [Improvement] 计算通信并行,AllReduce(ReduceScatter算法支持分片传输),性能提升20%。
- [Compiler] [Feature] Fortran OpenACC编译器支持WRF项目工程中新增需求特性。
- [Compiler] [Feature] memory_async 应用接口实现。
- [Compiler] [Improvement] Improve vlm page atten BF16 performance with auto predicate optimization
- [ACL] [Feature] mc classify新增int8 batched gemm基础功能支持。
- [ACL] [Feature] mc classify新增int8 fused moe接口功能支持。
- [ACL] [Improvement] BLAS groupgemm performance improvement
- [ACL] [Improvement] FlashAttention优化deepspeed的MLA算法在EP128切分下性能到70%
- [ACL] [Improvement] flashMLA优化了deepseek推理所需shape的性能
- [ACL] [Improvement] mc classify int8 gemm性能优化
MACA Pytorch
- [ACL] [Feature] Pytorch2.1/2.4扩展支持sdma类型通信op
- [ACL] [Improvement] torch使用flash_attn库c api接入相关功能