2. 新增特性及变更

本章列出历次发布的新增特性及变更。

2.1. MXMACA-Driver-3.6.0.11,MXMACA-SDK-3.6.0.18,MXMACA-Pytorch-3.6.0.5

模块

特性说明

Metax Driver

Firmware

支持DRM功能

支持CTBP功能

支持HBM VDD margin调整

支持CE warm packet处理

优化MetaXLink和PCIe性能相关参数

优化MC配置以增强HBM稳定性和可靠性

KMD

支持xcore fake dequeue功能

优化ETH相关的模块参数使用

SMI

SMI接口优化harvest内容展示

MXMACA SDK

UMD

支持Graph条件节点基础功能

发布mcSanitizer首版,支持一键定位核函数trap的代码精确位置

CommLib

N300/C600 默认开启远读

C600多机每机8卡场景,A2A采用节点内使用FC算法,机间使用SendRecv,带宽提升至40GB

FC算法C600默认最大AP数由32调整为16,N300由28调整为14

DeepEP稳定支持C600/N300 CX7多机通信

DeepEP支持更多规格expert number及hidden size

优化MCCL场景下C600 ETH IP性能

Compiler

反汇编器支持处理压缩的fatbin

支持新的printf实现方案

Private memory消除优化支持const array场景

优化pass pipeline降低private memory消除优化的代价,提升flash mla性能

提升指令调度针对mma场景的优化能力

SW_ACL

FlashAttn支持用于搜广推训练场景的HSTU attention

优化mcDNN batchnorm算子性能

优化mcDNN conv算子性能

优化mctlassEx int8 scaled gemm, fused moe gemm, contiguous/masked group gemm算子性能

MXVS

支持眼图功能

HBM带宽测试优化

MACA Pytorch

ACL

Pytorch新增fused_rms_norm融合算子

Pytorch新增mxsml相关api适配

2.2. MXMACA-Driver-3.4.0.18,MXMACA-SDK-3.4.0.15,MXMACA-Pytorch-3.4.0.2

模块

特性说明

Metax Driver

Firmware

支持DPM功能

支持RAVS功能

支持ETH RDMA所需的配套功能

优化了PCIe/MetaXLink参数

更新Bounding Box数据

优化了MC Warm Reset Sequence

优化了Power Tuning参数

KMD

支持ETH NIC驱动功能

支持ETH RDMA驱动功能

支持Warm Reset功能

支持超多进程(MPS)模式

支持sGPU

优化RAS相关统计

优化ETH不同配置和不同拓扑下的驱动默认行为

SMI

支持sGPU

支持查询ETH信息和状态

支持新的拓扑类型

MXMACA SDK

UMD

支持sGPU

支持芯片计算能力次版本号查询,次版本号编译选项进行硬件特性优化

Stream默认调度策略优化,从严格优先级切换为加权轮询(WRR)

优化PyTorch初始化后占用10GB系统内存的问题

单机多卡环境下,支持任意数量GPU动态锁定/解锁同一主机内存,实现多卡H2D传输

基于 graph ib=3 的情况下将graph内部所创建的stream优先级行为对齐N卡

Kernel timeout精准定位功能添加shader done,workgroup alloc done等具体原因

CommLib

MCCL主流集合通信原语,单机内通信性能达到软件理论值

MCCL主流集合通信原语支持CX7多机通信,性能达到软件理论值

DeepEP internode ll算法支持CX7多机通信

MCCL主流集合通信原语支持ETH IP多机通信

Tools

支持以异步附着模式追踪运行中的GPU程序

Compiler

支持TVM编译和运行

支持JAX ML Framework

支持IREE推理框架

SW_ACL

SageAttention支持Efficient attention API,支持thorough outlier smoothing和INT8 quantization

mcDNN conv算子性能优化

mctlassEx int8 scaled gemm, fused moe gemm, contiguous/masked group gemm算子性能优化

MXVS

性能测试调优

支持ETH压测

MX-Report

支持设置FW日志级别

支持获取FW日志

MX-Exporter

支持收集HBM温度,ETH带宽指标

MX-Diagease

支持默认模板

MACA Pytorch

ACL

支持torch.compile运行模式

优化triton int8 dotOp在的性能

2.3. MXMACA-Driver-3.2.0.21,MXMACA-SDK-3.2.0.12,MXMACA-Pytorch-3.2.0.6

模块

特性说明

MXMACA SDK

CommLib

MCCL支持OAM双机CX7 RDMA通信

2.4. MXMACA-Driver-3.2.0.19,MXMACA-SDK-3.2.0.11,MXMACA-Pytorch-3.2.0.6

模块

特性说明

Metax Driver

Firmware

支持SoC各固件 (SMP0/SMP1/ETHSC/XSC/CE等) 的加载和启动

支持GPU板卡上各外围器件接口的访问和控制

支持BMC带外管理接口

支持SMI带内管理接口

支持GPU板卡过温过功耗保护

支持RAS监控及相关异常处理

支持固件更新及备份机制

支持mgpu (Multiple GPU) 多卡互联模式的配置和切换

支持GPU板卡间通过ETH直连的P2P模式

支持SRIOV Virtual Function模式

KMD

支持PCIe,INT,SDMA,HAG,XCORE,ATU等模块驱动

支持VRAM,XTT,USERPTR等不同domain的内存和页表管理

支持多进程和多队列功能

支持各模块的CE (Correctable Error) RAS监控

支持UE错误和HBM坏页等RAS错误的监控及处理

支持SMI用户管理接口功能

支持硬件异常上报及处理

支持业务事件的应用层上报

支持mgpu MetaXLink多卡互联模式

支持GPU板卡间通过ETH直连的P2P多卡互联模式

支持Function Level Reset复位

支持开启SRIOV下的Virtual Function在主机环境的flat模式基本功能

支持开启SRIOV下的Virtual Function在容器环境的透传功能

SMI

支持用户管理接口查询各种软硬件信息和状态

支持用户管理接口配置各种软硬件模式

支持用户管理接口升级固件

MXMACA SDK

UMD

支持Device/Classic Memory/Stream/Event Management API

支持Execution Control API

MXMACA C++支持MCRTC (Runtime Compilation Library)

支持Occupancy API

支持Context Management API (未提供内存管理隔离功能)

支持Virtual Memeory Management API

支持Stream Ordered Memory Allocator API

支持Dynamic Parallelism API (基本功能)

支持Predefined Satic Graph API (CUDA 11.2)

支持Graph Memory Pool API (CUDA 11.8,在Direct Dispatch功能下支持)

支持Texture API的1D和2D功能以及部分3D功能

支持CUPTI Activity/Event/Metric API

支持NVTX API Basic for PyTorch

支持cu-bridge Linux V2

支持GPU Command/Constant/Argument Buffer Management

支持GPU Kernel Object/Complete Signal/Private Memory/Shared Memory/Global Memory Management

支持host + GPU 上的 end-to-end vectorAdd 场景

支持GPU printf Function V1

支持GPU kernel call host function

支持GPU kernel call kernel function V1

支持Direct Dispatch V1

支持Power Optimization (Voltage Droop)

支持MCRTC & JIT

支持MQL Driver/Packet/Signal/Memory基本功能

Tools

支持mcProfiler支持硬件计数器到性能指标的映射

支持mcProfiler支持性能指标的分析,包括roofline视图/饼图/柱状图/统计表

支持cycle-trace基于ISA类型的指令流采集,展示与分析功能

MXVS

支持各数据路径的带宽,算力,眼图,压力和功耗等基本测试功能

CommLib

MCCL支持FC4 x 4及FC4 x 4 + ETH P2P拓扑下的基本集合通信

MPI/UCX支持FC4 x 4及FC4 x 4 + ETH P2P拓扑下的基本通信

Compiler

MXCC支持 memory/maca xore/tensor core bound 场景下的adjust pass

MXCC支持MXMACA C Programming Language

MXCC支持OpenACC Programming Language

Toolchain支持MXMACA clangd (including an IDE extension and a language server)

MXCC支持memory access,instruction combine等基础优化

SW_ACL

mcBlas/mcBlasLT支持执行scalar与vector基本运算的 Level-1 函数

mcBlas/mcBlasLT支持执行matrix-vector运算的Level-2 函数

mcBlas/mcBlasLT支持执行matrix-matrix运算的Level-3 函数

mcBlas/mcBlasLT支持执行matrix-matrix运算的BLAS-extension 函数

mcBlasLT 专用于 GEMM 相关操作

mcThrust/mcCub支持Parallel Algorithms 函数

mcThrust/mcCub支持Container Abstractions 函数

mcThrust/mcCub支持Iterators & Memory Management 函数

mcRand支持Random Number Generators

mcRand支持Host & Device API

mcRand支持Random Distribution

FlashAttention支持用于推理和训练场景下快速、内存高效的exact attention 机制的 Python API

FlashAttention支持用于推理和训练场景下快速、内存高效的exact attention 机制的 C API

FlashAttention支持用于paged attention机制的KV cache INT8 dequantization fusion

FlashInfer支持针对大语言模型(LLM)服务部署和推理的高性能Prefill 与 Decode 实现

FlashMLA支持针对non-Hopper GPU 的高效 Multi-head Latent Attention decoding kernel

mcDNN增加conv,batchnorm,pooling等算子的功能支持

mctlassEx增加int8 scaled gemm,fused moe gemm,contiguous/masked group gemm等算子的功能支持

MACA Pytorch

ACL

支持matmul/conv/softmax/pooling等基础算子的运行

支持amp/ddp/cudagraph模式运行