2. 新增特性及变更

本章列出历次发布的新增特性及变更。

2.1. MXMACA-C500-Driver-3.1.0.11，MXMACA-C500-SDK-3.1.0.14，MXMACA-C500-Pytorch-3.1.0.4，MXMACA-C500-Iree-3.1.0.0

模块		特性说明
Metax Driver	Firmware	Firmware支持严重错误的掉电非易失记录功能
	Firmware	XCORE RAS Monitor由fw代理读取MCA信息
	SMI	虚拟化warm reset，mx-smi二次确认增加命令行选项
		mx-smi支持显示PCIe事件详细信息
		mx-smi支持显示PCI MMIO状态，当状态异常时显示第一次发生异常的时间
		增加sGPU调度延时查询接口
MXMACA SDK	UMD	支持stream占用的CE队列个数按优先级可配置且均匀划分到不同pipe，提高同级任务在不同pipe间的负载均衡
		GraphhostNode的调度采用sDMA队列，替代原先的CE队列方案，以降低对kernelNode服务所用CE队列资源的占用
		在Graph多流共享同一CE队列的场景下，支持跨流任务依赖关系检查，并依据依赖关系正确调度任务下发，有效防止任务阻塞
	MCCL	N260通信性能提升。对于小于1MB的通信数据上，4卡通信性能提升60%~200%，8卡通信性能提升40%~130%
	Compiler	编译器适配gcc13版本（Ubuntu24.04的默认版本）
		支持device segmented topk，提供高性能seg-topk方法
		Fortran OpenACC编译器支持CLT项目工程中新增需求特性
	SW_ACL	mctlassEx int8 dequant gemm相关Python接口初版发布
		mctlassEx int8 dequant gemm相关C接口初版发布
		mcTlass新增Int8 MaskedGroupGemm接口功能支持
		修复了mcBlasLt内存泄漏的问题
		flashInfer优化了DeepSeek推理场景下normal prefill的性能
		优化了mcBlas/mcBlasLt workspace处理机制
		flashAttn优化了客户使用场景下headdim 32、64和256的性能
	MXVS	mxvs和mxdiagease 带宽测试增加校验功能
MXMACA PyTorch	ACL	PyTorch2.4/2.6 增加Py3.12发布
MXMACA PyTorch	ACL	spconv针对典型应用的性能优化

2.2. MXMACA-C500-Driver-3.0.0.5，MXMACA-C500-SDK-3.0.0.8，MXMACA-C500-Pytorch-3.0.0.3，MXMACA-C500-Iree-3.0.0.0

模块		特性说明
Metax Driver	Firmware	增加Power Persistent Mode
	Firmware	优化MetaXLink training失败时的提示信息，便于现场排查故障
	KMD	Linux内核主线6.13版本适配
		KMD安装时支持模式指定设备文件权限为 `root:root 0666`
		支持可靠的单卡场景下unbind设备功能
		Unload driver期间禁止新任务使用mxcd设备以保证驱动卸载功能正常
		KMD代码在异常情况时打印返回值优化
	SMI	增加单个sGPU调度策略信息的显示
MXMACA SDK	UMD	mcTracer工具支持trace区间可控
		MXMACA SDK支持运维工具在程序运行过程中开启RPC并attach进来抓取MCPTI数据
		mcGraph支持在mcStreamCapture期间手动添加除host节点之外的其它类型节点
		优化mcMemcpyAsync小size对齐场景的性能，KV Cache 64KB大小的D2D内存拷贝从24us分别优化到graph外10us和graph内7us
		trap工具功能增强，新增支持核函数参数为多维指针结构体类型
		sGPU场景适配功能增强，硬件queue受限场景自动切换到CPU做同步，避免一些潜在的Hang场景
		UMD动态库头文件C++符号发布改进，增加可替代的C接口，并在C++接口增加废弃告警，提示用户尽快切换到相应的C接口
	MCCL	Full Connection算法支持2卡通信
		MCCL支持每个rank独立设置不同的VISIBLE DEVICES
		MCCL分层算法支持MACA Graph
		优化internode算法性能并达到理论值
		优化internode LL算法性能并达到理论值
	Compiler	编译器适配gcc13版本（Ubuntu24.04的默认版本）
	SW_ACL	mcEigen库从MXMACA SDK包中移除
		mcTlass新增Int8 MaskedGroupGemm接口功能支持
		mamba初版功能发布
		发布Sage Attention2.1算子库以支持Wan等模型推理加速
		FlashInfer优化了DeepSeek推理所需MLA decode性能，在EP128的batch32下性能大幅提升
		mcBlasLT库Gemm与通信融合针对llama/Qwen系列重点大模型训练的性能优化
		mcBlas库fp16/bf16 gemm针对大MNK情景下的性能优化
		mcBlas库针对Deepseek/Qwen3等大模型推理的性能优化
		mcTlass int8 fused gemm针对deepseek性能优化
		mcTlass int8 fused moe扩展了输入参数的支持
MXMACA PyTorch	ACL	PyTorch tf32 gemm/conv 行为修改
MXMACA PyTorch	ACL	torch使用flash_attn库C API接入相关功能

2.3. MXMACA-C500-Driver-2.33.0.9，MXMACA-C500-SDK-2.33.0.12，MXMACA-C500-Pytorch-2.33.0.5，MXMACA-C500-Iree-2.33.0.0

模块		特性说明
Metax Driver	Firmware	eeprom中存储VBIOS升级记录
	KMD	提供KMD错误代码，并打印到日志
		KMD提供ECC errors的统计和显示
		支持使用只读方式打开文件，进行Host2Device拷贝操作
		提供sGPU模式的 `-l` 参数功能，显示一台服务器上所有sGPU实例
		提供对sGPU调度队列的优先级设置，增加运维调度的可配置灵活性
		SMI提供ECC errors的统计和显示
		SMI拓扑显示支持国产网卡
		SMI升级Firmware前，增加检查服务器MMIO地址空间的逻辑，避免识别不到卡无法恢复的问题
		整合芯片和板卡SN号，显存型号和大小的信息显示
MXMACA SDK	mxExporter	mx-exporter上报EID，ECC error指标
	mxExporter	mx-exporter上报MetaXLink AER，收发总字节指标
	UMD	MCPTI支持NVTV_FUNC_WITH_PARAMS_API
		MCPTI支持Graph实例化后再开启Pytorch Profiling
		MCPTI支持single-block方式配置perfcounter
		当GPU资源不满足用户配置的MACA_PRIORITY_QUEUE_POLICY时，支持自动根据可用硬件Queue数目修改Queue的优先级配置
		调试功能增强：支持通过配置文件设置kernel名字，使得该kernel所在rodata为readonly，便于调试内存踩踏问题
		提供UMD错误代码，并打印到日志
	MCCL	OAM机型默认开启PCIe链路通信，通信性能提升10%-20%
		通信库支持DeepEP64通信
		TransferBench增加RDMA链路检测功能，用于检测集群网络可用性
		计算通信并行，AllReduce/ReduceScatter算法支持分片传输，性能提升20%
	Compiler	Fortran OpenACC编译器支持WRF项目工程中新增需求特性
		memcpy_async 应用接口实现
		通过auto predicate optimization提升 vllm page atten BF16 性能
	ACL	mctlass新增int8 batched gemm基础功能支持
		mctlass新增int8 fused moe接口功能支持
		mctlass int8 gemm性能优化
		BLAS groupgemm 性能优化
		FlashInfer优化deepseek的MLA算法在EP128切分下的性能到70%
		flashMLA优化了deepseek推理所需shape的性能
MXMACA PyTorch	ACL	PyTorch2.1/2.4扩展支持sdma类型通信op
MXMACA PyTorch	ACL	torch使用flash_attn库C API接入相关功能
IREE		新增IREE软件包，谷歌开源的机器学习推理框架，专为高效部署机器学习模型而设计的端到端编译器与运行时工具链

2.4. MXMACA-C500-Driver-2.32.0.6，MXMACA-C500-SDK-2.32.0.6，MXMACA-C500-Pytorch-2.32.0.3

模块		特性说明
KMD		KMD适配mlx网卡doorbell映射到gpu mem的功能
		支持dragonfly拓扑基础上使能MetaXLink port5的新拓扑
		支持GPU使用Linux hugetlb大页或者连续小页组成的适合合并PTE的2M页面
		支持当前HW queue状态查询
UMD		MXMACA Graph支持选择内存相关节点使用Blit Kernel或SDMA
		Kernel hang住时获取所有ringbuffer MqlPacket等信息
		mcpti支持single-block方式配置perfcounter
		UMD自适应sGPU默认开启MPS
		支持 trapHandler 非致命异常command级别精准定位
		UMD提供API以供查询stream复用queue的情况
		UMD在Graph IB模式下移除单stream上最多使用512个active signal的限制
		支持环境变量设置进程创建stream最大等待时长，避免进程hang
MCCL		UMD适配mellanox网卡doorbell地址映射接口
		实现通信库alltoallV extend功能
		开发32卡通信Ring算法及性能调优
		实现通信库allreduce extend功能
Compiler		Fortran OpenACC编译器支持CLT/WRF项目工程中新增需求特性
Compiler		通过double buffer pingpong 方案提高 gemv 性能
ACL	FlashAttention	flashAttn支持某客户推理所需特殊alibi并优化性能
	FlashAttention	flashInfer优化deepseek推理所需MLA kernel的性能
	mcBlas	BLAS Customer Kernel Selection 工具支持 LLM Infer gemm 性能优化
	mcBlas	支持 FP32 group gemm功能
	mcDNN	mcDNN针对mmpre/mmdet网络性能优化
	mcSolver	mcSolver geqrf性能优化
	mcTlass	mcTlass增加FP32/FP16/BF16 group gemm功能支持
		在MXMACA平台上支持deepseek的flashMLA并开源至github
PyTorch		发布 PyTorch 2.6
Tools		记录GPU变不可用的原因并提供sysfs接口
		mx-smi sgpu 实现一次性创建需要的sGPU个数
		mx-report新增lspci -vvxxxx信息收集
		SMI增加nvml.h头文件中相关结构体和函数，方便编译通过
		mxvs算力支持sGPU
		mx-exporter支持sgpu-wheel

2.5. MXMACA-C500-Driver-2.31.0.6，MXMACA-C500-SDK-2.31.0.6，MXMACA-C500-Pytorch-2.31.0.4

模块		特性说明
MXMACA	软件栈	从2.31.0版本开始，正式全面支持在线安装相关功能，详情请参考https://developer.metax-tech.com/softnova/index
MXMACA	软件栈	SDK安装路径版本号变更为3位
KMD/FW		增加对ccx fw和ccx boot（VBIOS）的版本兼容性检测
UMD		支持GPU拓扑感知
		优化GraphLaunch耗时
		direct dispatch模式下支持以下API： mcDeviceSetGraphMemAttribute mcDeviceGraphMemTr mcDeviceGetGraphMemAttribute
		默认开启kernel前L2 flush的优化
		细化完善trap kernel精准定位方案
MCCL		多机SDMA sendRecv并行方案开发
		集群状态检测脚本开发/优化
		添加RAS功能
		Dragonfly8卡通信算法优化
		开发分层算法，提升OAMC550 Switch Box拓扑16卡/64卡性能
Compiler		OpenACC编译器新增对WRF项目工程中涵盖的语义特性支持
		新增OpenACC编译器运行时依赖Python包列表显示的选项支持
		用table lookup算法优化vLLM kDequantize性能
ACL	FlashAttention	在FlashAttention中添加headdim 512
		flashAttn提供kernel selector插件以针对特定shape选择性能更好的kernel
		flashAttn提供kv cache int8反量化功能以支持decoder阶段提升性能
		flashInfer升级版本到0.2.x版本以支持deepseekV3推理
		用fast div方案优化flash attn2性能
		通过B16寄存器分配提高flash attn2性能
		新增w8a8 azp功能
	mcBlasLT	支持GEMM+Commincation API
	mcBlasLT	优化gemm+bias API的性能
	mcBlas	优化gemv性能
	mcBlas	优化大模型推理（包括deepseek r1）的性能
	mcDNN	优化mcDNN FP32/TF32单向LSTM性能
	mcFFT	优化8192范围内素数size的性能，从30%提升到60%
		用metaxgpu slp方案优化triton-flash attention2 bwd的性能
		TF32&Int8 GEMM性能有提升
		优化deepseek mla triton算子性能
		优化deepseek fused moe triton算子性能
		优化PyTorch cat算子性能
Tools	mcTracer	mcTracer工具支持profiling区间可配置
Tools	mcTracer	mxvs工具打流支持switch地址遍历

2.6. MXMACA-C500-Driver-2.29.0.13，MXMACA-C500-SDK-2.29.0.19，MXMACA-C500-Pytorch-2.29.0.4

模块		特性说明
MXMACA	软件栈	支持基于APT/YUM的MXMACA SDK和Driver在线安装与卸载的基本功能，以及PIP方式的Pytorch在线安装功能，详情请参考https://repos.metax-tech.com/gitea/repos/index/wiki/MACA.md
Compiler		Fortran OpenACC编译器中支持了Reduction分离特性
Compiler		新增mlir-translate编译器组件工具，支持mlir文件到llvm ir文件的转换
PyTorch		发布mcPytorch 2.4版本
PyTorch		mcAudio发布2.4版本，功能支持95%
ACL	mcTriton	mcTriton发布3.0版本
	mcTriton	改进Post-RA调度策略，消除了非必要snop，Triton的TN pipeline性能提升5%
	mcspconv	发布mcspconv库初版
	mcBLAS	mcBLAS库优化了部分大模型推理场景下的性能
	flashAttn	flashAttn库优化了部分大模型推理场景下paged attention的性能
	mcTlass	mcTlass优化int8 TN GEMM在vllm w8a8应用场景下的性能
MCCL		MCCL优化C500/C550 AllToAll通信，整体性能平均提升20%
		MCCL优化C500/C550低时延算法，小数据量通信时延平均降低30%
		MCCL优化C500X Switch跨机EP4/EP8通信性能，整体性能平均提升200%
		MCCL支持异构集群
UMD		Direct Dispatch的command状态更新，提升部分场景的性能
UMD		github上选取有意义的第三方开源项目，通过率达到 3453/3838 = 90%
AI		MXMACA Graph的并行节点最大限度分散到不同硬件queue，提升部分场景的性能
AI		升级flashAttn库版本到2.6.3，增加了softcap、small page size推理等功能的支持
Tools		mcTracer/mcpti的tracing数据准确性提升，改进mcMemcpy在大size拷贝时耗时统计的精确性
Tools		mcTracer/mcpti增加后台非实时线程处理app线程的tracing数据，降低app线程进行tracing的overhead（在某多进程多卡场景的profiling时间从75s减少到15s）

2.7. MXMACA-C500-Driver-2.27.0.11，MXMACA-C500-SDK-2.27.0.11，MXMACA-C500-Pytorch-2.27.0.8

模块		特性说明
MXMACA	软件栈	支持天固Gen5/超聚变/单机Dragonfly 16卡服务器
MXMACA	mcTracer	支持单机多进程多卡场景，支持Call Stack显示
Compiler		支持OpenCL v1.2 Spec中的所有built-in function
		支持OpenCL编译器mxcc-ocl
		使能了OpenACC编译中的collapse子句
		发布了MXMACA Clangd语言编程工具
		在MI调度阶段引入了Igroup功能模块，为MMA相关的代码段引入了用户可配置的调度策略，提高了指令调度的效率
		提升mcRTC兼容性，大幅降低用户对jitify的相关代码进行修改适配
		SOMA兼容虚拟地址的管理行为，减少部分场景潜在的显存碎片化问题
		优化了MI调度模块，使得Triton MMA的utilization从60%提升到73%
		优化了Uniform branch处理方法，提升了mcTlass GEMM i8性能5%~20%
		优化了pk_fma处理策略，提升vllm gptq kernel性能约20%
		优化了BF16 cvt和compute的处理，提升了BF16 hgemm_nt的性能约25%，达到FP16 hgemm_nt的85%
		提升了OpenACC的性能，使得VASP Benchmark的性能有提高
KMD	VBIOS	增加对RAVS电压补偿方案、光模块热插拔功能、SDMA对tracer timestamp的支持
KMD	VBIOS	完善CE对direct_dispatch模式的支持
UMD	MCCL	支持Dragonfly 32卡拓扑，支持博通/云合等网卡交换机
	Graph	提升Graph IB模式性能，并且默认开启Graph IB模式，提升AI推理场景性能
		提升单卡部分size D2D memcpy性能（4MB-64MB提升约30%）
		提升单节点多卡环境DMA queue的吞吐量，大幅提升DMA queue满负荷使用场景的性能
VPU	mxJPEG	VPUD/VPUE支持stream操作，VPUD支持batch功能。
ACL	mcBLAS	mcBlasLt库支持了GEMM的out of place功能
		mcBlas库修复了kernel selection工具在不同Python版本下的兼容问题
		mcBlas库支持了deterministic mode
		BF16 GEMM性能表现提升至与FP16 GEMM一致水平
		优化了group GEMM API在MOE模型训练场景下的性能
		优化了BF16/FP16 GEMM在problem size非对齐场景下的性能
		优化了BF16/FP16在new fused config 2M page size下的性能
	mcDNN	支持了BF16 fwd conv融合，LSTM新增支持dropout
	mcDNN	BF16 fwd conv性能表现提升至与FP16 fwd conv一致水平
	mcTlass	支持了BF16 group GEMM功能，和INT8 GEMM下ScaleBias类型融合的功能
	FlashAttn	增加DeepSeek v2的MLA功能支持，并优化了性能
	FlashAttn	优化了head dim为32奇数倍的推理算子性能
	FlashInfer	发布0.1.5完整功能版本，支持prefill、decoder和cascade等推理需求
	mcFFT	优化了127以内素数基的性能
	mcFFT	优化了小size 2D和3D real transform算子性能
	mcImage	mcImage性能提升50%-10倍
	mcMathLib	15个常用接口性能提升10%以上
PyTorch		mcPytorch增加了ProcessGroup的mpi后端支持
		移除kernel中关于assert的使用，提升了相关kernel的性能
		优化部分非连续输入输出场景下cat/reduce算子性能

2.8. MXMACA-C500-Driver-2.25.2.8，MXMACA-C500-SDK-2.25.2.9，MXMACA-C500-Pytorch-2.25.2.8

模块		特性说明
UMD	Runtime API	新增API mcLaunchKernelExC，通过扩展属性配置CooperativeGroup指定核函数的内存同步域，这对于跨设备的内存同步和异步执行非常有用。
UMD	mcpti	activity质量增强
VPU		优化VPUD 264 sps/pps
AI		大模型在OAM机型上的通信算子性能符合理论值
	triton	提升fp16 MMA on triton性能，峰值性能达到标成算力的65%
	triton	优化冗余的跨基本块的fp16数据合并操作，提升10%的triton MMA场景性能
ACL	Flash Attention	优化了headdim96的前向和反向功能
	Flash Attention	优化了headdim256的decode功能
	mcBlas	针对大模型推理相关模型进行了性能提升
tools	inspector	发布集群环境检测工具inspector
	mcProfiler	优化mcProfiler UX
	mx-report	提供mx-report工具试用版

2.9. MXMACA-C500-Driver-2.25.0.3，MXMACA-C500-SDK-2.25.0.7，MXMACA-C500-Pytorch-2.25.0.0

模块		特性说明
MXMACA		本版本旨在快速提供MXMACA软件栈在MOE（混合专家模型）技术上的最新支持成果，后续版本仍会持续优化
	mcpti	新增Graph API IB模式的tracer功能支持
	mcBLAS	增加了Group GEMM相关API的支持
		针对大模型推理相关模型进行了性能提升
		加强使用Graph API测试场景覆盖
	Compiler	使能OpenAcc P0特性和OpenCL基本特性
		优化pkfma和FP16 cvt执行策略，提升vLLM关键Kernel GPTQ性能
		优化冗余的跨基本块的FP16数据合并操作，提升triton MMA场景性能
		加强Direct Dispatch的测试场景覆盖
		加强显存使用复杂场景的测试场景覆盖
		FlashAttention优化了headdim96的前向和反向功能、headdim256的decode性能
		提升FP16 MMA on triton性能

2.10. MXMACA-C500-Driver-2.24.0.10，MXMACA-C500-SDK-2.24.0.12，MXMACA-C500-Pytorch-2.24.0.5

模块		特性说明
UMD		提供DirectDispatch功能
UMD		加强了多进程支持的稳定性，并有小幅性能提升
MCCL		支持易构集群
	C500X	Ring算法支持网卡和PCIe并行通信，分布算法性能优化，TP8带宽性能提升
	ARM	支持复用PCIe链路通信，单机多卡通信带宽性能提升
Graph	API	支持Memory Node基本功能
ACL	mcTracer	支持根据UMD memory tracing log单独生成trace文件，并可以通过mcTracer-Viewer打开并显示
	mcDNN	增加了FP16前向depthwise卷积融合功能
	mcDNN/ mcBLAS	增加外置kernel选择优化工具
	Flash Attention	增加MHA/GQA backward全部headdim的支持
		增加对decoder attention和paged attention全部headdim的支持
		支持更通用的attention mask
Compiler		增加global load/store builtin function with predicator
ARM		修复了一些ARM平台上的软件适配问题

2.11. MXMACA-C500-Driver-2.23.0.1014，MXMACA-C500-SDK-2.23.0.1018，MXMACA-C500-Pytorch-2.23.0.1011，MXMACA-C500-K8s-0.7.13

模块		特性说明
C500X	MetaXLink	支持隐式MetaXLink training
C500X	MCCL	支持C500X
ACL	mcDNN	提升FP16 depth-wise卷积性能
	mcBLAS	提升大语言模型场景下的矩阵乘法性能
	Flash Attention	提升head dimension部分性能
PyTorch		新增支持python 3.10
PyTorch		新增支持torch2.1
Compiler		新增编译选项-mllvm -metaxgpu-lduB16=true
Triton		支持triton2.1
mcTracer		支持根据热点API slice排序
Bug修复		修复了200+ reported bug，包括 5+ hot issue

2.12. MXMACA-C500-2.22.0.9 amd64和MXMACA-C500-2.22.0.11 arm64

模块		特性说明
OS适配		本次发布新增OS BCLinux R8 U2，kernel 4.19.0-240.23.11.el8_2.bclinux.x86_64
OS适配		支持飞腾5000C ARM系统，kernel 5.15.0-1.10.6.v2307.ky10h.aarch64
驱动	Warm Reset	支持Warm Reset方式
ACL		发布mcApex和mcXformer
Bug修复		修复了100+ reported bug，包括 1 hot issue

2.13. MXMACA-C500-2.20.2.19

模块		特性说明
OS适配		本次发布新增OS ALinux3，kernel 5.10.134-13.1.al8.x86_64
		本次发布新增OS CTYun 23.01，kernel 5.10.0-136.12.0.86.ctl3.x86_64
		本次发布新增OS x86_64 Kylin V10 SP2，kernel 5.10.0-136.12.0.86.ctl3.x86_64
		本次发布新增OS KeyarchOS 5.8，kernel 4.19.91-27.4.19.kos5.x86_64
驱动	VPU	新增支持多进程FFmpeg编解码
Bug修复		修复了200+ reported bug，包括 1 hot issue

2.14. MXMACA-C500-2.19.2.23

模块		特性说明
Bug修复		修复了220+ reported bug，包括 19 hot issue

2.15. MXMACA-C500-2.19.2.7

模块		特性说明
Bug修复		修复了160+ reported bug，包括 13 hot issue

2.16. MXMACA-C500-2.19.0.12

模块		特性说明
Bug修复		修复了160+ reported bug，包括7 hot issue

2.17. MXMACA-C500-2.18.0.4

模块		特性说明
Bug修复		修复了reported bug

2.18. MXMACA-C500-2.17.3.11

模块		特性说明
驱动	内核态驱动	新增支持CC Linux 22.09
	虚拟化	新增支持虚拟化相关功能
	VPU	新增支持264/265/jpeg编码，264/265/av1/avs2/jpeg解码，8k 30fps
Bug修复		修复了57 reported bug，包括24 hot issue

2.19. MXMACA-C500-2.16.1.11

模块		特性说明
驱动	内核态驱动	新增支持RedHat 9/CentOS 9和BC-Linux for Euler（21.10及以上）
Bug修复		修复了120+ reported bug，包括10+ hot issue

2.20. MXMACA-C500-2.15.0.7

模块		特性说明
驱动	固件	支持C500芯片上运行的基本固件功能
	内核态驱动	支持C500芯片上运行的基本内核功能
	用户态驱动	支持C500芯片上运行的基本用户态驱动功能
编译器	编译器	支持基本C500编译器功能
数学库	基本数学库	支持C500芯片上运行的基本数学库功能
数学库	Pytorch	支持C500芯片上运行的Pytorch功能