2. 新增特性及变更

本章列出历次发布的新增特性及变更。

2.1. Metax-Driver-3.8.0.10,MXMACA-SDK-3.8.0.23,MXMACA-Pytorch-3.8.0.7,MXMACA-Iree-3.8.0.0,MXMACA-JAX-3.8.0.0,MXMACA-TileLang-3.8.0.1,MXMACA-SDK-Python-3.8.0.8,MXMACA-MXRDMA-3.8.0.0

模块

特性说明

Metax Driver

KMD

MetaX GPU单机MAS (MetaX Advanced Storage)功能支持

新增按照时间和阈值条件打印PCIe CE AER

增加一个UTC时间统计函数

ETH驱动支持EID功能

适配L1状态以解决N300上MetaXLink recovery次数过多导致掉卡问题

支持C500八卡全互联拓扑拆分成多个全互联子拓扑

Firmware

CE FW支持AP资源根据context id进行分配和安全隔离

CE FW解决mcTracer profile mcModuleLaunchBatchKernels APl隐式同步问题

Virtualization

sGPU在离线支持显存迁移

MXMACA SDK

UMD

支持MACA Graph conditional node

新增对warp_lang-1.12版本的在线/离线编译支持

增加支持MCPTI API的Pybind

mcSanitizer 工具增加日志收集和日志等级划分功能

MACA_EXT_MPS_MODE增加懒独占(lazy exclusive mode)模式

UMD增加 log 提示用户删除二进制缓存

Shader trap增加FW侧的trap debug信息

优化ELF文件加载与解析流程,降低模型启动延迟

Compiler

mcMPP库向MACA SDK合入发布

MXC500系列mcTileLang新增T.allc_maca_barrer,T.maca_memcpy_async,T.maca_barrier_arrive_and_wait指令用于适配maca memcpy_async特性支持

MXC500系列mcTileLang 支持DSL指令T.gemm_sp

基于mcXLA项目,tensorflow开源模型AUTOINT性能优化

使用CSEL指令优化Divergence分支

GEP指令Sink优化,降低寄存器用量

CommLib

MCCL提供新接口:mcclCommSplit, mcclMemAlloc,mcclMemFree,并对齐数据结构mcclConfig_t

C588 多机alltoall支持FC算法

MXC600系列DeepEP适配Kylin v11 +ofed 25 版本组合

MXC600系列支持FP8 DeepEP功能

MXC600系列和C550 SGlang DeepEP支持hidden_size 3072

MXMesh支持C550-DF超节点

MXMesh支持C588两机超节点

超节点支持XCore进行EP通信

MIXL包由0.5.1升级到1.0.0,支持DeviceAPI、PD分离接口

MCCL支持RHEL 9.6 GDR通信

C588 减少A2A中转方式初始化时占用的内存

ACL

flashMLA支持deepseek V4推理(bf16 kvcache)

新增BlockSparseAttention的headdim 128 foward功能用以支持长seqlen推理加速

flashAttn以API兼容的方式升级支持的官方版本到2.8.3,以支持trch compiler调用

MXC500系列新增FlashMoba的headdim 128功能用以支持长seqlen场景推理和训练加速

MXC500系列新增FlashPrefill的完整功能用以支持长seqlen的prefill推理加速

MXC500系列mctlassEx Masked Group Gemm增加SBO功能支持

MXC500系列FlashLinearAttn新增Gated Delta Net功能支持

MXC500系列mctlassEx w4a8/w8a8 fused moe性能优化

MXC600系列mcDNN增加fp16/int8 conv与tanh,gelu类型activation的融合kernel

Perf Tool

Memory Tracing功能增加显存泄漏定位

EIS

mcEIS案例库中加入UMD触发的EID场景

Exporter

mx-exporter支持采集MMA使用率指标

mx-exporter支持收集GPU启动后的总能耗

SDK

优化了软件支持多代芯片产品后的运行时系统内存占用

MACA Pytorch

Pytorch

支持torchvision0.25

支持mctriton3.6

支持mcpytorch2.10

2.2. Metax-Driver-3.7.2.30,MXMACA-SDK-3.7.2.0,MXMACA-Pytorch-3.7.2.0,MXMACA-Iree-3.7.2.0,MXMACA-JAX-3.7.2.0,MXMACA-TileLang-3.7.2.0,MXMACA-SDK-Python-3.7.2.0

模块

特性说明

Metax Driver

KMD

解决从ioctl接口下发MetaXLink Training命令失败的问题

MXMACA SDK

ACL

修复triton3.0中chunk_gated_delta_rule_fwd_intra C600系列编译报错问题

2.3. Metax-Driver-3.7.1.1,MXMACA-SDK-3.7.1.5,MXMACA-Pytorch-3.7.1.3,MXMACA-Iree-3.7.1.0,MXMACA-JAX-3.7.1.0,MXMACA-TileLang-3.7.1.1,MXMACA-SDK-Python-3.7.1.0

模块

特性说明

MXMACA SDK

ACL

MXC500系列mcTlassEx w8a8 fused moe 算子优化

MXC500系列mcTlassEx w4a16 fused moe 算子优化

MXC500系列mcTlassEx bf16 fused moe 算子优化

MXC500系列mcTlassEx w8a8 scaled gemm 算子优化

MXC500系列flashInfer ragged prefill和paged prefill性能优化

flashAttn支持和优化headdim192+128的sink attention

2.4. Metax-Driver-3.7.0.23,MXMACA-SDK-3.7.0.38,MXMACA-Pytorch-3.7.0.7,MXMACA-Iree-3.7.0.1,MXMACA-JAX-3.7.0.2,MXMACA-TileLang-3.7.0.3,MXMACA-SDK-Python-3.7.0.4

模块

特性说明

Metax Driver

KMD

板卡状态异常时,减少下发mailbox的通讯

优化debugfs的中断统计功能

VT

虚拟化时多个VF支持vram均分

虚拟化支持单卡粒度的VF切分能力

Firmware

FW支持通过预加载MXMACA Graph内所有核函数指令与参数,提升Graph端到端性能

MXMACA SDK

UMD

maca-python API首版发布,支持maca-binding python API

mcpti完善callback cbid API,支持tensorflow profiling使用

MXMACA Graph默认进行冗余边优化,提升Graph整体性能

MACA_LAUNCH_MODE=2 (非默认值)性能优化,Kernel参数Host写入保持Uncache,但Device读取改为Cache

支持 mcModuleLaunchBatchKernel 接口,并支持其作为MXMACA Graph的一个节点类型

进程启动时自动检测GPU NUMA配置,并以表格形式呈现CPU、内存和动态库的NUMA亲和性优化提示,辅助性能调优

mcMemset小shape性能提升,4字节mcMemset从10us优化到5us以内

UMD支持通过预加载Graph内所有核函数指令与参数,提升Graph端到端性能

trap kernel args dump功能增强

Compiler

mcXLA 支持tensorflow框架 v2.13.1版本

mcTileLang完成C500首次release发布,为开发者提供wheel包

mcMPP库向MXMACA SDK合入发布

PK FMA指令自动生成优化

CommLib

MXShmem支持集合通信类、内存操作类等接口功能

OMPI开启OpenIB功能,支持脱离UCX的网络通信

DeepEP支持hidden size 2816、3328等规格

MCCL优化C600的A2Av/A2Ad通信,性能提升50%

ACL

mcTlassEx新增int8 w4a8 masked group gemm功能

mcTlassEx新增int8 w4a8 fused moe gemm功能

支持mcTile跑通官方vector add、gemm和MHA examples

mcTlassEx新增int8 w8a8 masked fused moe功能

mcTlassEx增加bf16 fused moe接口功能

flashMLA支持decode context parallel

flashAttn支持用于搜广推训练场景的HSTU attention

Perf Tool

增加CycleTrace Memory Latency统计,包括最大值和平均值统计

Diagease

mx-diagease增加PCIe Atomic测试功能

Install

本地离线安装MXMACA SDK时检测服务器上是否已安装其他版本的SDK,如已安装,会给出提示

MACA Pytorch

Pytorch

Pytorch软件包支持曦索X系列GPU卡

2.5. MXMACA-Driver-3.6.0.11,MXMACA-SDK-3.6.0.18,MXMACA-Pytorch-3.6.0.5

此次发布的软件包仅适配曦云® C600和曦思® N300产品

模块

特性说明

Metax Driver

Firmware

支持DRM功能

支持CTBP功能

支持HBM VDD margin调整

支持CE warm packet处理

优化MetaXLink和PCIe性能相关参数

优化MC配置以增强HBM稳定性和可靠性

KMD

支持xcore fake dequeue功能

优化ETH相关的模块参数使用

SMI

SMI接口优化harvest内容展示

MXMACA SDK

UMD

支持Graph条件节点基础功能

发布mcSanitizer首版,支持一键定位核函数trap的代码精确位置

CommLib

N300/C600 默认开启远读

C600多机每机8卡场景,A2A采用节点内使用FC算法,机间使用SendRecv,带宽提升至40GB

FC算法C600默认最大AP数由32调整为16,N300由28调整为14

DeepEP稳定支持C600/N300 CX7多机通信

DeepEP支持更多规格expert number及hidden size

优化MCCL场景下C600 ETH IP性能

Compiler

反汇编器支持处理压缩的fatbin

支持新的printf实现方案

Private memory消除优化支持const array场景

优化pass pipeline降低private memory消除优化的代价,提升flash mla性能

提升指令调度针对mma场景的优化能力

SW_ACL

FlashAttn支持用于搜广推训练场景的HSTU attention

优化mcDNN batchnorm算子性能

优化mcDNN conv算子性能

优化mctlassEx int8 scaled gemm, fused moe gemm, contiguous/masked group gemm算子性能

MXVS

支持眼图功能

HBM带宽测试优化

MACA Pytorch

ACL

Pytorch新增fused_rms_norm融合算子

Pytorch新增mxsml相关api适配

2.6. Metax-Driver-3.5.3.11,MXMACA-SDK-3.5.3.18,MXMACA-Pytorch-3.5.3.9,MXMACA-Iree-3.5.3.0,MXMACA-JAX-3.5.3.0

此次发布的软件包仅适配曦云® C500、C500X、C550、C550-PL、C588和曦思® N260产品

模块

特性说明

Metax Driver

KMD

麒麟KylinOS V11 内核适配

联通CULinux V3.0 和 CUOS V4.0 内核适配

XCORE上报FWE error时,KMD 支持打印 L2C 信息

SMI

mx-smi支持在指定的maca目录获取MACA Version

MXMACA SDK

UMD

支持为VPU配置专用Signal Pool,使其可寻址的虚拟地址空间(VA)严格约束在32位范围内(即<=4GB)

支持MCCL通信流对硬件队列的独占机制(Best Effort)

mcMemset小shape性能提升到C500理论目标值(4Bytes从10us优化到5us以内)

D2D小shape拷贝APl性能提升到C500理论目标值(4MB从24us优化到10us以内)

支持任意数量GPU动态锁定/解锁同一主机内存,实现在该主机内存进行多卡H2D传输

支持多Stream SDK Trace能力,用于观测和诊断上层业务与底层硬件队列间的排队问题

Compiler

修复了编译器版本升级带来的功能和性能回退问题

编译器支持 -offload-arch=native 功能

支持jax for alphafold3在jit模式下运行

CommLib

支持博通网卡IBGDA特性

MCCL、MCFILE支持日志落盘功能

C588 适配支持DeepEP

C588 TP16 allreduce性能提升20%

ACL

修复Blas库在CentOS7上的功能问题

flashlnfer支持 Trtllm_batch_decode_with_kv_cache_mla 接口的功能

Blas库Gemm针对k为奇数场景的性能优化

flashAttn优化了headdim96和512的算子性能以支持客户dit、vae、clip encoder等模型的性能

Tools

mcProfiler支持多卡多进程

mcTracer nvtx payload显示功能开发

mcProfiler适配CentOS7

mcProfiler支持单卡多进程

MXMACA PyTorch

ACL

pytorch reduce 算子 global memory 初始化优化

2.7. MXMACA-Driver-3.4.0.18,MXMACA-SDK-3.4.0.15,MXMACA-Pytorch-3.4.0.2

此次发布的软件包仅适配曦云® C600和曦思® N300产品

模块

特性说明

Metax Driver

Firmware

支持DPM功能

支持RAVS功能

支持ETH RDMA所需的配套功能

优化了PCIe/MetaXLink参数

更新Bounding Box数据

优化了MC Warm Reset Sequence

优化了Power Tuning参数

KMD

支持ETH NIC驱动功能

支持ETH RDMA驱动功能

支持Warm Reset功能

支持超多进程(MPS)模式

支持sGPU

优化RAS相关统计

优化ETH不同配置和不同拓扑下的驱动默认行为

SMI

支持sGPU

支持查询ETH信息和状态

支持新的拓扑类型

MXMACA SDK

UMD

支持sGPU

支持芯片计算能力次版本号查询,次版本号编译选项进行硬件特性优化

Stream默认调度策略优化,从严格优先级切换为加权轮询(WRR)

优化PyTorch初始化后占用10GB系统内存的问题

单机多卡环境下,支持任意数量GPU动态锁定/解锁同一主机内存,实现多卡H2D传输

基于 graph ib=3 的情况下将graph内部所创建的stream优先级行为对齐N卡

Kernel timeout精准定位功能添加shader done,workgroup alloc done等具体原因

CommLib

MCCL主流集合通信原语,单机内通信性能达到软件理论值

MCCL主流集合通信原语支持CX7多机通信,性能达到软件理论值

DeepEP internode ll算法支持CX7多机通信

MCCL主流集合通信原语支持ETH IP多机通信

Tools

支持以异步附着模式追踪运行中的GPU程序

Compiler

支持TVM编译和运行

支持JAX ML Framework

支持IREE推理框架

SW_ACL

SageAttention支持Efficient attention API,支持thorough outlier smoothing和INT8 quantization

mcDNN conv算子性能优化

mctlassEx int8 scaled gemm, fused moe gemm, contiguous/masked group gemm算子性能优化

MXVS

性能测试调优

支持ETH压测

MX-Report

支持设置FW日志级别

支持获取FW日志

MX-Exporter

支持收集HBM温度,ETH带宽指标

MX-Diagease

支持默认模板

MACA Pytorch

ACL

支持torch.compile运行模式

优化triton int8 dotOp在的性能

2.8. Metax-Driver-3.3.0.4,MXMACA-SDK-3.3.0.15,MXMACA-Pytorch-3.3.0.2,MXMACA-Iree-3.3.0.0,MXMACA-JAX-3.3.0.0

此次发布的软件包仅适配曦云® C500、C500X、C550、C550-PL、C588和曦思® N260产品

模块

特性说明

Metax Driver

SMI

mx-smi温度、board sn、chip name相关优化

mx-smi优化mmio空间不够时的错误提示

mx-smi优化VBIOS文件不存在时的错误提示

MXMACA SDK

UMD

延迟系统内存初始化时机,以解决PyTorch等框架初始化时占用系统内存过多的问题

单机多卡环境下,支持任意数量GPU动态锁定/解锁同一主机内存,实现多卡H2D传输

优化 MACA_GRAPH_LAUNCH_MODE=3 的Stream优先级,即保证Graph额外创建的Stream和Graph Launch API使用的Stream优先级一致

为Kernel Timeout精准定位功能添加具体原因

CommLib

适配MIXL库,支持基本功能

DeepEP适配Hidden Size和专家数等更多参数规格,以支持更多MoE大模型

分层算法支持多机Reduce Scatter、All Gather通信功能

ACL

Xformers将attention backend所用的flashAttn2.5.3升级到2.6.3,并支持全部memory efficient forward API功能

mctlassEx新增w8a16 contiguous group gemm接口功能

mcDNN新增int8/fp16 fwd conv+gelu融合功能

FlashMLA支持deepseek v3.2所需的sparse prefill和decode功能

Tools

mcProfiler增加轮次对比功能

在单机多device场景,CycleTrace支持多卡同时执行

MXMACA PyTorch

ACL

支持 torchcodec-0.6.0

发布PyTorch2.8版本,同时移除PyTorch2.1版本

MXMACA JAX

JAX

正式发布mcJax-0.4.34 AI训推框架

2.9. Metax-Driver-3.2.1.12,MXMACA-SDK-3.2.1.10,MXMACA-Pytorch-3.2.1.3,MXMACA-Iree-3.2.1.0

此次发布的软件包仅适配曦云® C600和曦思® N300产品

模块

特性说明

Metax Driver

SMI

mx-smi 命令新增板卡级别的信息显示

SMI eeprom支持显示Board Type

MXMACA SDK

UMD

支持mcTracer / torch profiling采集新增的API接口类型数据(mcExtBatchCopyFlagAndWait, mcStreamWriteValue32/64, mcStreamWaitValue32/64)

支持应用Graph的拓扑感知和优化,自动删除DAG冗余的节点依赖

Compiler

Fortran OpenACC编译器编译时间优化及WRF/CLT工程问题修复

ACL

FlashInfer升级版本到0.2.6并保证API兼容性

FlashAttn支持GPT-OSS推理所需sink功能

mcBlas库allgather+gemm融合算子支持bias融合

mcBlas库修复了部分gemm kernel在极端情况下偏移计算错误的问题

mcsolver hegvd性能优化,针对典型应用达到性能预期

MXMACA PyTorch

ACL

catOp支持uint64

2.10. MXMACA-Driver-3.2.0.21,MXMACA-SDK-3.2.0.12,MXMACA-Pytorch-3.2.0.6

此次发布的软件包仅适配曦云® C600和曦思® N300产品

模块

特性说明

MXMACA SDK

CommLib

MCCL支持OAM双机CX7 RDMA通信

2.11. MXMACA-Driver-3.2.0.19,MXMACA-SDK-3.2.0.11,MXMACA-Pytorch-3.2.0.6

此次发布的软件包仅适配曦云® C600和曦思® N300产品

模块

特性说明

Metax Driver

Firmware

支持SoC各固件 (SMP0/SMP1/ETHSC/XSC/CE等) 的加载和启动

支持GPU板卡上各外围器件接口的访问和控制

支持BMC带外管理接口

支持SMI带内管理接口

支持GPU板卡过温过功耗保护

支持RAS监控及相关异常处理

支持固件更新及备份机制

支持mgpu (Multiple GPU) 多卡互联模式的配置和切换

支持GPU板卡间通过ETH直连的P2P模式

支持SRIOV Virtual Function模式

KMD

支持PCIe,INT,SDMA,HAG,XCORE,ATU等模块驱动

支持VRAM,XTT,USERPTR等不同domain的内存和页表管理

支持多进程和多队列功能

支持各模块的CE (Correctable Error) RAS监控

支持UE错误和HBM坏页等RAS错误的监控及处理

支持SMI用户管理接口功能

支持硬件异常上报及处理

支持业务事件的应用层上报

支持mgpu MetaXLink多卡互联模式

支持GPU板卡间通过ETH直连的P2P多卡互联模式

支持Function Level Reset复位

支持开启SRIOV下的Virtual Function在主机环境的flat模式基本功能

支持开启SRIOV下的Virtual Function在容器环境的透传功能

SMI

支持用户管理接口查询各种软硬件信息和状态

支持用户管理接口配置各种软硬件模式

支持用户管理接口升级固件

MXMACA SDK

UMD

支持Device/Classic Memory/Stream/Event Management API

支持Execution Control API

MXMACA C++支持MCRTC (Runtime Compilation Library)

支持Occupancy API

支持Context Management API (未提供内存管理隔离功能)

支持Virtual Memeory Management API

支持Stream Ordered Memory Allocator API

支持Dynamic Parallelism API (基本功能)

支持Predefined Satic Graph API (CUDA 11.2)

支持Graph Memory Pool API (CUDA 11.8,在Direct Dispatch功能下支持)

支持Texture API的1D和2D功能以及部分3D功能

支持CUPTI Activity/Event/Metric API

支持NVTX API Basic for PyTorch

支持cu-bridge Linux V2

支持GPU Command/Constant/Argument Buffer Management

支持GPU Kernel Object/Complete Signal/Private Memory/Shared Memory/Global Memory Management

支持host + GPU 上的 end-to-end vectorAdd 场景

支持GPU printf Function V1

支持GPU kernel call host function

支持GPU kernel call kernel function V1

支持Direct Dispatch V1

支持Power Optimization (Voltage Droop)

支持MCRTC & JIT

支持MQL Driver/Packet/Signal/Memory基本功能

Tools

支持mcProfiler支持硬件计数器到性能指标的映射

支持mcProfiler支持性能指标的分析,包括roofline视图/饼图/柱状图/统计表

支持cycle-trace基于ISA类型的指令流采集,展示与分析功能

MXVS

支持各数据路径的带宽,算力,眼图,压力和功耗等基本测试功能

CommLib

MCCL支持FC4 x 4及FC4 x 4 + ETH P2P拓扑下的基本集合通信

MPI/UCX支持FC4 x 4及FC4 x 4 + ETH P2P拓扑下的基本通信

Compiler

MXCC支持 memory/maca xore/tensor core bound 场景下的adjust pass

MXCC支持MXMACA C Programming Language

MXCC支持OpenACC Programming Language

Toolchain支持MXMACA clangd (including an IDE extension and a language server)

MXCC支持memory access,instruction combine等基础优化

SW_ACL

mcBlas/mcBlasLT支持执行scalar与vector基本运算的 Level-1 函数

mcBlas/mcBlasLT支持执行matrix-vector运算的Level-2 函数

mcBlas/mcBlasLT支持执行matrix-matrix运算的Level-3 函数

mcBlas/mcBlasLT支持执行matrix-matrix运算的BLAS-extension 函数

mcBlasLT 专用于 GEMM 相关操作

mcThrust/mcCub支持Parallel Algorithms 函数

mcThrust/mcCub支持Container Abstractions 函数

mcThrust/mcCub支持Iterators & Memory Management 函数

mcRand支持Random Number Generators

mcRand支持Host & Device API

mcRand支持Random Distribution

FlashAttention支持用于推理和训练场景下快速、内存高效的exact attention 机制的 Python API

FlashAttention支持用于推理和训练场景下快速、内存高效的exact attention 机制的 C API

FlashAttention支持用于paged attention机制的KV cache INT8 dequantization fusion

FlashInfer支持针对大语言模型(LLM)服务部署和推理的高性能Prefill 与 Decode 实现

FlashMLA支持针对non-Hopper GPU 的高效 Multi-head Latent Attention decoding kernel

mcDNN增加conv,batchnorm,pooling等算子的功能支持

mctlassEx增加int8 scaled gemm,fused moe gemm,contiguous/masked group gemm等算子的功能支持

MACA Pytorch

ACL

支持matmul/conv/softmax/pooling等基础算子的运行

支持amp/ddp/cudagraph模式运行

2.12. Metax-C500-Driver-3.1.0.11,MXMACA-C500-SDK-3.1.0.14,MXMACA-C500-Pytorch-3.1.0.4,MXMACA-C500-Iree-3.1.0.0

模块

特性说明

Metax Driver

Firmware

Firmware支持严重错误的掉电非易失记录功能

XCORE RAS Monitor由fw代理读取MCA信息

SMI

虚拟化warm reset,mx-smi二次确认增加命令行选项

mx-smi支持显示PCIe事件详细信息

mx-smi支持显示PCI MMIO状态,当状态异常时显示第一次发生异常的时间

增加sGPU调度延时查询接口

MXMACA SDK

UMD

支持stream占用的CE队列个数按优先级可配置且均匀划分到不同pipe,提高同级任务在不同pipe间的负载均衡

GraphhostNode的调度采用sDMA队列,替代原先的CE队列方案,以降低对kernelNode服务所用CE队列资源的占用

在Graph多流共享同一CE队列的场景下,支持跨流任务依赖关系检查,并依据依赖关系正确调度任务下发,有效防止任务阻塞

MCCL

N260通信性能提升。对于小于1MB的通信数据上,4卡通信性能提升60%~200%,8卡通信性能提升40%~130%

Compiler

编译器适配gcc13版本(Ubuntu24.04的默认版本)

支持device segmented topk,提供高性能seg-topk方法

Fortran OpenACC编译器支持CLT项目工程中新增需求特性

SW_ACL

mctlassEx int8 dequant gemm相关Python接口初版发布

mctlassEx int8 dequant gemm相关C接口初版发布

mcTlass新增Int8 MaskedGroupGemm接口功能支持

修复了mcBlasLt内存泄漏的问题

flashInfer优化了DeepSeek推理场景下normal prefill的性能

优化了mcBlas/mcBlasLt workspace处理机制

flashAttn优化了客户使用场景下headdim 32、64和256的性能

MXVS

mxvs和mxdiagease 带宽测试增加校验功能

MXMACA PyTorch

ACL

PyTorch2.4/2.6 增加Py3.12发布

spconv针对典型应用的性能优化

2.13. Metax-C500-Driver-3.0.0.5,MXMACA-C500-SDK-3.0.0.8,MXMACA-C500-Pytorch-3.0.0.3,MXMACA-C500-Iree-3.0.0.0

模块

特性说明

Metax Driver

Firmware

增加Power Persistent Mode

优化MetaXLink training失败时的提示信息,便于现场排查故障

KMD

Linux内核主线6.13版本适配

KMD安装时支持模式指定设备文件权限为 root:root 0666

支持可靠的单卡场景下unbind设备功能

Unload driver期间禁止新任务使用mxcd设备以保证驱动卸载功能正常

KMD代码在异常情况时打印返回值优化

SMI

增加单个sGPU调度策略信息的显示

MXMACA SDK

UMD

mcTracer工具支持trace区间可控

MXMACA SDK支持运维工具在程序运行过程中开启RPC并attach进来抓取MCPTI数据

mcGraph支持在mcStreamCapture期间手动添加除host节点之外的其它类型节点

优化mcMemcpyAsync小size对齐场景的性能,KV Cache 64KB大小的D2D内存拷贝从24us分别优化到graph外10us和graph内7us

trap工具功能增强,新增支持核函数参数为多维指针结构体类型

sGPU场景适配功能增强,硬件queue受限场景自动切换到CPU做同步,避免一些潜在的Hang场景

UMD动态库头文件C++符号发布改进,增加可替代的C接口,并在C++接口增加废弃告警,提示用户尽快切换到相应的C接口

MCCL

Full Connection算法支持2卡通信

MCCL支持每个rank独立设置不同的VISIBLE DEVICES

MCCL分层算法支持MACA Graph

优化internode算法性能并达到理论值

优化internode LL算法性能并达到理论值

Compiler

编译器适配gcc13版本(Ubuntu24.04的默认版本)

SW_ACL

mcEigen库从MXMACA SDK包中移除

mcTlass新增Int8 MaskedGroupGemm接口功能支持

mamba初版功能发布

发布Sage Attention2.1算子库以支持Wan等模型推理加速

FlashInfer优化了DeepSeek推理所需MLA decode性能,在EP128的batch32下性能大幅提升

mcBlasLT库Gemm与通信融合针对llama/Qwen系列重点大模型训练的性能优化

mcBlas库fp16/bf16 gemm针对大MNK情景下的性能优化

mcBlas库针对Deepseek/Qwen3等大模型推理的性能优化

mcTlass int8 fused gemm针对deepseek性能优化

mcTlass int8 fused moe扩展了输入参数的支持

MXMACA PyTorch

ACL

PyTorch tf32 gemm/conv 行为修改

torch使用flash_attn库C API接入相关功能

2.14. Metax-C500-Driver-2.33.0.9,MXMACA-C500-SDK-2.33.0.12,MXMACA-C500-Pytorch-2.33.0.5,MXMACA-C500-Iree-2.33.0.0

模块

特性说明

Metax Driver

Firmware

eeprom中存储VBIOS升级记录

KMD

提供KMD错误代码,并打印到日志

KMD提供ECC errors的统计和显示

支持使用只读方式打开文件,进行Host2Device拷贝操作

提供sGPU模式的 -l 参数功能,显示一台服务器上所有sGPU实例

提供对sGPU调度队列的优先级设置,增加运维调度的可配置灵活性

SMI提供ECC errors的统计和显示

SMI拓扑显示支持国产网卡

SMI升级Firmware前,增加检查服务器MMIO地址空间的逻辑,避免识别不到卡无法恢复的问题

整合芯片和板卡SN号,显存型号和大小的信息显示

MXMACA SDK

mxExporter

mx-exporter上报EID,ECC error指标

mx-exporter上报MetaXLink AER,收发总字节指标

UMD

MCPTI支持NVTV_FUNC_WITH_PARAMS_API

MCPTI支持Graph实例化后再开启Pytorch Profiling

MCPTI支持single-block方式配置perfcounter

当GPU资源不满足用户配置的MACA_PRIORITY_QUEUE_POLICY时,支持自动根据可用硬件Queue数目修改Queue的优先级配置

调试功能增强:支持通过配置文件设置kernel名字,使得该kernel所在rodata为readonly,便于调试内存踩踏问题

提供UMD错误代码,并打印到日志

MCCL

OAM机型默认开启PCIe链路通信,通信性能提升10%-20%

通信库支持DeepEP64通信

TransferBench增加RDMA链路检测功能,用于检测集群网络可用性

计算通信并行,AllReduce/ReduceScatter算法支持分片传输,性能提升20%

Compiler

Fortran OpenACC编译器支持WRF项目工程中新增需求特性

memcpy_async 应用接口实现

通过auto predicate optimization提升 vllm page atten BF16 性能

ACL

mctlass新增int8 batched gemm基础功能支持

mctlass新增int8 fused moe接口功能支持

mctlass int8 gemm性能优化

BLAS groupgemm 性能优化

FlashInfer优化deepseek的MLA算法在EP128切分下的性能到70%

flashMLA优化了deepseek推理所需shape的性能

MXMACA PyTorch

ACL

PyTorch2.1/2.4扩展支持sdma类型通信op

torch使用flash_attn库C API接入相关功能

IREE

新增IREE软件包,谷歌开源的机器学习推理框架,专为高效部署机器学习模型而设计的端到端编译器与运行时工具链

2.15. Metax-C500-Driver-2.32.0.6,MXMACA-C500-SDK-2.32.0.6,MXMACA-C500-Pytorch-2.32.0.3

模块

特性说明

KMD

KMD适配mlx网卡doorbell映射到gpu mem的功能

支持dragonfly拓扑基础上使能MetaXLink port5的新拓扑

支持GPU使用Linux hugetlb大页或者连续小页组成的适合合并PTE的2M页面

支持当前HW queue状态查询

UMD

MXMACA Graph支持选择内存相关节点使用Blit Kernel或SDMA

Kernel hang住时获取所有ringbuffer MqlPacket等信息

mcpti支持single-block方式配置perfcounter

UMD自适应sGPU默认开启MPS

支持 trapHandler 非致命异常command级别精准定位

UMD提供API以供查询stream复用queue的情况

UMD在Graph IB模式下移除单stream上最多使用512个active signal的限制

支持环境变量设置进程创建stream最大等待时长,避免进程hang

MCCL

UMD适配mellanox网卡doorbell地址映射接口

实现通信库alltoallV extend功能

开发32卡通信Ring算法及性能调优

实现通信库allreduce extend功能

Compiler

Fortran OpenACC编译器支持CLT/WRF项目工程中新增需求特性

通过double buffer pingpong 方案提高 gemv 性能

ACL

FlashAttention

flashAttn支持某客户推理所需特殊alibi并优化性能

flashInfer优化deepseek推理所需MLA kernel的性能

mcBlas

BLAS Customer Kernel Selection 工具支持 LLM Infer gemm 性能优化

支持 FP32 group gemm功能

mcDNN

mcDNN针对mmpre/mmdet网络性能优化

mcSolver

mcSolver geqrf性能优化

mcTlass

mcTlass增加FP32/FP16/BF16 group gemm功能支持

在MXMACA平台上支持deepseek的flashMLA并开源至github

PyTorch

发布 PyTorch 2.6

Tools

记录GPU变不可用的原因并提供sysfs接口

mx-smi sgpu 实现一次性创建需要的sGPU个数

mx-report新增lspci -vvxxxx信息收集

SMI增加nvml.h头文件中相关结构体和函数,方便编译通过

mxvs算力支持sGPU

mx-exporter支持sgpu-wheel

2.16. Metax-C500-Driver-2.31.0.6,MXMACA-C500-SDK-2.31.0.6,MXMACA-C500-Pytorch-2.31.0.4

模块

特性说明

MXMACA

软件栈

从2.31.0版本开始,正式全面支持在线安装相关功能,详情请参考https://developer.metax-tech.com/softnova/index

SDK安装路径版本号变更为3位

KMD/FW

增加对ccx fw和ccx boot(VBIOS)的版本兼容性检测

UMD

支持GPU拓扑感知

优化GraphLaunch耗时

direct dispatch模式下支持以下API:

mcDeviceSetGraphMemAttribute

mcDeviceGraphMemTr

mcDeviceGetGraphMemAttribute

默认开启kernel前L2 flush的优化

细化完善trap kernel精准定位方案

MCCL

多机SDMA sendRecv并行方案开发

集群状态检测脚本开发/优化

添加RAS功能

Dragonfly8卡通信算法优化

开发分层算法,提升OAMC550 Switch Box拓扑16卡/64卡性能

Compiler

OpenACC编译器新增对WRF项目工程中涵盖的语义特性支持

新增OpenACC编译器运行时依赖Python包列表显示的选项支持

用table lookup算法优化vLLM kDequantize性能

ACL

FlashAttention

在FlashAttention中添加headdim 512

flashAttn提供kernel selector插件以针对特定shape选择性能更好的kernel

flashAttn提供kv cache int8反量化功能以支持decoder阶段提升性能

flashInfer升级版本到0.2.x版本以支持deepseekV3推理

用fast div方案优化flash attn2性能

通过B16寄存器分配提高flash attn2性能

新增w8a8 azp功能

mcBlasLT

支持GEMM+Commincation API

优化gemm+bias API的性能

mcBlas

优化gemv性能

优化大模型推理(包括deepseek r1)的性能

mcDNN

优化mcDNN FP32/TF32单向LSTM性能

mcFFT

优化8192范围内素数size的性能,从30%提升到60%

用metaxgpu slp方案优化triton-flash attention2 bwd的性能

TF32&Int8 GEMM性能有提升

优化deepseek mla triton算子性能

优化deepseek fused moe triton算子性能

优化PyTorch cat算子性能

Tools

mcTracer

mcTracer工具支持profiling区间可配置

mxvs工具打流支持switch地址遍历

2.17. Metax-C500-Driver-2.29.0.13,MXMACA-C500-SDK-2.29.0.19,MXMACA-C500-Pytorch-2.29.0.4

模块

特性说明

MXMACA

软件栈

支持基于APT/YUM的MXMACA SDK和Driver在线安装与卸载的基本功能,以及PIP方式的Pytorch在线安装功能,详情请参考https://repos.metax-tech.com/gitea/repos/index/wiki/MACA.md

Compiler

Fortran OpenACC编译器中支持了Reduction分离特性

新增mlir-translate编译器组件工具,支持mlir文件到llvm ir文件的转换

PyTorch

发布mcPytorch 2.4版本

mcAudio发布2.4版本,功能支持95%

ACL

mcTriton

mcTriton发布3.0版本

改进Post-RA调度策略,消除了非必要snop,Triton的TN pipeline性能提升5%

mcspconv

发布mcspconv库初版

mcBLAS

mcBLAS库优化了部分大模型推理场景下的性能

flashAttn

flashAttn库优化了部分大模型推理场景下paged attention的性能

mcTlass

mcTlass优化int8 TN GEMM在vllm w8a8应用场景下的性能

MCCL

MCCL优化C500/C550 AllToAll通信,整体性能平均提升20%

MCCL优化C500/C550低时延算法,小数据量通信时延平均降低30%

MCCL优化C500X Switch跨机EP4/EP8通信性能,整体性能平均提升200%

MCCL支持异构集群

UMD

Direct Dispatch的command状态更新,提升部分场景的性能

github上选取有意义的第三方开源项目,通过率达到 3453/3838 = 90%

AI

MXMACA Graph的并行节点最大限度分散到不同硬件queue,提升部分场景的性能

升级flashAttn库版本到2.6.3,增加了softcap、small page size推理等功能的支持

Tools

mcTracer/mcpti的tracing数据准确性提升,改进mcMemcpy在大size拷贝时耗时统计的精确性

mcTracer/mcpti增加后台非实时线程处理app线程的tracing数据,降低app线程进行tracing的overhead(在某多进程多卡场景的profiling时间从75s减少到15s)

2.18. Metax-C500-Driver-2.27.0.11,MXMACA-C500-SDK-2.27.0.11,MXMACA-C500-Pytorch-2.27.0.8

模块

特性说明

MXMACA

软件栈

支持天固Gen5/超聚变/单机Dragonfly 16卡服务器

mcTracer

支持单机多进程多卡场景,支持Call Stack显示

Compiler

支持OpenCL v1.2 Spec中的所有built-in function

支持OpenCL编译器mxcc-ocl

使能了OpenACC编译中的collapse子句

发布了MXMACA Clangd语言编程工具

在MI调度阶段引入了Igroup功能模块,为MMA相关的代码段引入了用户可配置的调度策略,提高了指令调度的效率

提升mcRTC兼容性,大幅降低用户对jitify的相关代码进行修改适配

SOMA兼容虚拟地址的管理行为,减少部分场景潜在的显存碎片化问题

优化了MI调度模块,使得Triton MMA的utilization从60%提升到73%

优化了Uniform branch处理方法,提升了mcTlass GEMM i8性能5%~20%

优化了pk_fma处理策略,提升vllm gptq kernel性能约20%

优化了BF16 cvt和compute的处理,提升了BF16 hgemm_nt的性能约25%,达到FP16 hgemm_nt的85%

提升了OpenACC的性能,使得VASP Benchmark的性能有提高

KMD

VBIOS

增加对RAVS电压补偿方案、光模块热插拔功能、SDMA对tracer timestamp的支持

完善CE对direct_dispatch模式的支持

UMD

MCCL

支持Dragonfly 32卡拓扑,支持博通/云合等网卡交换机

Graph

提升Graph IB模式性能,并且默认开启Graph IB模式,提升AI推理场景性能

提升单卡部分size D2D memcpy性能(4MB-64MB提升约30%)

提升单节点多卡环境DMA queue的吞吐量,大幅提升DMA queue满负荷使用场景的性能

VPU

mxJPEG

VPUD/VPUE支持stream操作,VPUD支持batch功能。

ACL

mcBLAS

mcBlasLt库支持了GEMM的out of place功能

mcBlas库修复了kernel selection工具在不同Python版本下的兼容问题

mcBlas库支持了deterministic mode

BF16 GEMM性能表现提升至与FP16 GEMM一致水平

优化了group GEMM API在MOE模型训练场景下的性能

优化了BF16/FP16 GEMM在problem size非对齐场景下的性能

优化了BF16/FP16在new fused config 2M page size下的性能

mcDNN

支持了BF16 fwd conv融合,LSTM新增支持dropout

BF16 fwd conv性能表现提升至与FP16 fwd conv一致水平

mcTlass

支持了BF16 group GEMM功能,和INT8 GEMM下ScaleBias类型融合的功能

FlashAttn

增加DeepSeek v2的MLA功能支持,并优化了性能

优化了head dim为32奇数倍的推理算子性能

FlashInfer

发布0.1.5完整功能版本,支持prefill、decoder和cascade等推理需求

mcFFT

优化了127以内素数基的性能

优化了小size 2D和3D real transform算子性能

mcImage

mcImage性能提升50%-10倍

mcMathLib

15个常用接口性能提升10%以上

PyTorch

mcPytorch增加了ProcessGroup的mpi后端支持

移除kernel中关于assert的使用,提升了相关kernel的性能

优化部分非连续输入输出场景下cat/reduce算子性能

2.19. Metax-C500-Driver-2.25.2.8,MXMACA-C500-SDK-2.25.2.9,MXMACA-C500-Pytorch-2.25.2.8

模块

特性说明

UMD

Runtime API

新增API mcLaunchKernelExC,通过扩展属性配置CooperativeGroup指定核函数的内存同步域,这对于跨设备的内存同步和异步执行非常有用。

mcpti

activity质量增强

VPU

优化VPUD 264 sps/pps

AI

大模型在OAM机型上的通信算子性能符合理论值

triton

提升fp16 MMA on triton性能,峰值性能达到标成算力的65%

优化冗余的跨基本块的fp16数据合并操作,提升10%的triton MMA场景性能

ACL

Flash Attention

优化了headdim96的前向和反向功能

优化了headdim256的decode功能

mcBlas

针对大模型推理相关模型进行了性能提升

tools

inspector

发布集群环境检测工具inspector

mcProfiler

优化mcProfiler UX

mx-report

提供mx-report工具试用版

2.20. Metax-C500-Driver-2.25.0.3,MXMACA-C500-SDK-2.25.0.7,MXMACA-C500-Pytorch-2.25.0.0

模块

特性说明

MXMACA

本版本旨在快速提供MXMACA软件栈在MOE(混合专家模型)技术上的最新支持成果,后续版本仍会持续优化

mcpti

新增Graph API IB模式的tracer功能支持

mcBLAS

增加了Group GEMM相关API的支持

针对大模型推理相关模型进行了性能提升

加强使用Graph API测试场景覆盖

Compiler

使能OpenAcc P0特性和OpenCL基本特性

优化pkfma和FP16 cvt执行策略,提升vLLM关键Kernel GPTQ性能

优化冗余的跨基本块的FP16数据合并操作,提升triton MMA场景性能

加强Direct Dispatch的测试场景覆盖

加强显存使用复杂场景的测试场景覆盖

FlashAttention优化了headdim96的前向和反向功能、headdim256的decode性能

提升FP16 MMA on triton性能

2.21. Metax-C500-Driver-2.24.0.10,MXMACA-C500-SDK-2.24.0.12,MXMACA-C500-Pytorch-2.24.0.5

模块

特性说明

UMD

提供DirectDispatch功能

加强了多进程支持的稳定性,并有小幅性能提升

MCCL

支持易构集群

C500X

Ring算法支持网卡和PCIe并行通信,分布算法性能优化,TP8带宽性能提升

ARM

支持复用PCIe链路通信,单机多卡通信带宽性能提升

Graph

API

支持Memory Node基本功能

ACL

mcTracer

支持根据UMD memory tracing log单独生成trace文件,并可以通过mcTracer-Viewer打开并显示

mcDNN

增加了FP16前向depthwise卷积融合功能

mcDNN/

mcBLAS

增加外置kernel选择优化工具

Flash Attention

增加MHA/GQA backward全部headdim的支持

增加对decoder attention和paged attention全部headdim的支持

支持更通用的attention mask

Compiler

增加global load/store builtin function with predicator

ARM

修复了一些ARM平台上的软件适配问题

2.22. Metax-C500-Driver-2.23.0.1014,MXMACA-C500-SDK-2.23.0.1018,MXMACA-C500-Pytorch-2.23.0.1011,MXMACA-C500-K8s-0.7.13

模块

特性说明

C500X

MetaXLink

支持隐式MetaXLink training

MCCL

支持C500X

ACL

mcDNN

提升FP16 depth-wise卷积性能

mcBLAS

提升大语言模型场景下的矩阵乘法性能

Flash Attention

提升head dimension部分性能

PyTorch

新增支持python 3.10

新增支持torch2.1

Compiler

新增编译选项-mllvm -metaxgpu-lduB16=true

Triton

支持triton2.1

mcTracer

支持根据热点API slice排序

Bug修复

修复了200+ reported bug,包括 5+ hot issue

2.23. MXMACA-C500-2.22.0.9 amd64和MXMACA-C500-2.22.0.11 arm64

模块

特性说明

OS适配

本次发布新增OS BCLinux R8 U2,kernel 4.19.0-240.23.11.el8_2.bclinux.x86_64

支持飞腾5000C ARM系统,kernel 5.15.0-1.10.6.v2307.ky10h.aarch64

驱动

Warm Reset

支持Warm Reset方式

ACL

发布mcApex和mcXformer

Bug修复

修复了100+ reported bug,包括 1 hot issue

2.24. MXMACA-C500-2.20.2.19

模块

特性说明

OS适配

本次发布新增OS ALinux3,kernel 5.10.134-13.1.al8.x86_64

本次发布新增OS CTYun 23.01,kernel 5.10.0-136.12.0.86.ctl3.x86_64

本次发布新增OS x86_64 Kylin V10 SP2,kernel 5.10.0-136.12.0.86.ctl3.x86_64

本次发布新增OS KeyarchOS 5.8,kernel 4.19.91-27.4.19.kos5.x86_64

驱动

VPU

新增支持多进程FFmpeg编解码

Bug修复

修复了200+ reported bug,包括 1 hot issue

2.25. MXMACA-C500-2.19.2.23

模块

特性说明

Bug修复

修复了220+ reported bug,包括 19 hot issue

2.26. MXMACA-C500-2.19.2.7

模块

特性说明

Bug修复

修复了160+ reported bug,包括 13 hot issue

2.27. MXMACA-C500-2.19.0.12

模块

特性说明

Bug修复

修复了160+ reported bug,包括7 hot issue

2.28. MXMACA-C500-2.18.0.4

模块

特性说明

Bug修复

修复了reported bug

2.29. MXMACA-C500-2.17.3.11

模块

特性说明

驱动

内核态驱动

新增支持CC Linux 22.09

虚拟化

新增支持虚拟化相关功能

VPU

新增支持264/265/jpeg编码,264/265/av1/avs2/jpeg解码,8k 30fps

Bug修复

修复了57 reported bug,包括24 hot issue

2.30. MXMACA-C500-2.16.1.11

模块

特性说明

驱动

内核态驱动

新增支持RedHat 9/CentOS 9和BC-Linux for Euler(21.10及以上)

Bug修复

修复了120+ reported bug,包括10+ hot issue

2.31. MXMACA-C500-2.15.0.7

模块

特性说明

驱动

固件

支持C500芯片上运行的基本固件功能

内核态驱动

支持C500芯片上运行的基本内核功能

用户态驱动

支持C500芯片上运行的基本用户态驱动功能

编译器

编译器

支持基本C500编译器功能

数学库

基本数学库

支持C500芯片上运行的基本数学库功能

Pytorch

支持C500芯片上运行的Pytorch功能