2. 新增特性及变更

本章列出历次发布的新增特性及变更。

2.1. Metax-Driver-3.8.0.10，MXMACA-SDK-3.8.0.23，MXMACA-Pytorch-3.8.0.7，MXMACA-Iree-3.8.0.0，MXMACA-JAX-3.8.0.0，MXMACA-TileLang-3.8.0.1，MXMACA-SDK-Python-3.8.0.8，MXMACA-MXRDMA-3.8.0.0

模块		特性说明
Metax Driver	KMD	MetaX GPU单机MAS (MetaX Advanced Storage)功能支持
		新增按照时间和阈值条件打印PCIe CE AER
		增加一个UTC时间统计函数
		ETH驱动支持EID功能
		适配L1状态以解决N300上MetaXLink recovery次数过多导致掉卡问题
		支持C500八卡全互联拓扑拆分成多个全互联子拓扑
	Firmware	CE FW支持AP资源根据context id进行分配和安全隔离
	Firmware	CE FW解决mcTracer profile mcModuleLaunchBatchKernels APl隐式同步问题
	Virtualization	sGPU在离线支持显存迁移
MXMACA SDK	UMD	支持MACA Graph conditional node
		新增对warp_lang-1.12版本的在线/离线编译支持
		增加支持MCPTI API的Pybind
		mcSanitizer 工具增加日志收集和日志等级划分功能
		MACA_EXT_MPS_MODE增加懒独占(lazy exclusive mode)模式
		UMD增加 log 提示用户删除二进制缓存
		Shader trap增加FW侧的trap debug信息
		优化ELF文件加载与解析流程，降低模型启动延迟
	Compiler	mcMPP库向MACA SDK合入发布
		MXC500系列mcTileLang新增T.allc_maca_barrer，T.maca_memcpy_async，T.maca_barrier_arrive_and_wait指令用于适配maca memcpy_async特性支持
		MXC500系列mcTileLang 支持DSL指令T.gemm_sp
		基于mcXLA项目，tensorflow开源模型AUTOINT性能优化
		使用CSEL指令优化Divergence分支
		GEP指令Sink优化，降低寄存器用量
	CommLib	MCCL提供新接口：mcclCommSplit, mcclMemAlloc,mcclMemFree,并对齐数据结构mcclConfig_t
		C588 多机alltoall支持FC算法
		MXC600系列DeepEP适配Kylin v11 +ofed 25 版本组合
		MXC600系列支持FP8 DeepEP功能
		MXC600系列和C550 SGlang DeepEP支持hidden_size 3072
		MXMesh支持C550-DF超节点
		MXMesh支持C588两机超节点
		超节点支持XCore进行EP通信
		MIXL包由0.5.1升级到1.0.0，支持DeviceAPI、PD分离接口
		MCCL支持RHEL 9.6 GDR通信
		C588 减少A2A中转方式初始化时占用的内存
	ACL	flashMLA支持deepseek V4推理(bf16 kvcache)
		新增BlockSparseAttention的headdim 128 foward功能用以支持长seqlen推理加速
		flashAttn以API兼容的方式升级支持的官方版本到2.8.3，以支持trch compiler调用
		MXC500系列新增FlashMoba的headdim 128功能用以支持长seqlen场景推理和训练加速
		MXC500系列新增FlashPrefill的完整功能用以支持长seqlen的prefill推理加速
		MXC500系列mctlassEx Masked Group Gemm增加SBO功能支持
		MXC500系列FlashLinearAttn新增Gated Delta Net功能支持
		MXC500系列mctlassEx w4a8/w8a8 fused moe性能优化
		MXC600系列mcDNN增加fp16/int8 conv与tanh，gelu类型activation的融合kernel
	Perf Tool	Memory Tracing功能增加显存泄漏定位
	EIS	mcEIS案例库中加入UMD触发的EID场景
	Exporter	mx-exporter支持采集MMA使用率指标
	Exporter	mx-exporter支持收集GPU启动后的总能耗
	SDK	优化了软件支持多代芯片产品后的运行时系统内存占用
MACA Pytorch	Pytorch	支持torchvision0.25
		支持mctriton3.6
		支持mcpytorch2.10

2.2. Metax-Driver-3.7.2.30，MXMACA-SDK-3.7.2.0，MXMACA-Pytorch-3.7.2.0，MXMACA-Iree-3.7.2.0，MXMACA-JAX-3.7.2.0，MXMACA-TileLang-3.7.2.0，MXMACA-SDK-Python-3.7.2.0

模块		特性说明
Metax Driver	KMD	解决从ioctl接口下发MetaXLink Training命令失败的问题
MXMACA SDK	ACL	修复triton3.0中chunk_gated_delta_rule_fwd_intra C600系列编译报错问题

2.3. Metax-Driver-3.7.1.1，MXMACA-SDK-3.7.1.5，MXMACA-Pytorch-3.7.1.3，MXMACA-Iree-3.7.1.0，MXMACA-JAX-3.7.1.0，MXMACA-TileLang-3.7.1.1，MXMACA-SDK-Python-3.7.1.0

模块		特性说明
MXMACA SDK	ACL	MXC500系列mcTlassEx w8a8 fused moe 算子优化
		MXC500系列mcTlassEx w4a16 fused moe 算子优化
		MXC500系列mcTlassEx bf16 fused moe 算子优化
		MXC500系列mcTlassEx w8a8 scaled gemm 算子优化
		MXC500系列flashInfer ragged prefill和paged prefill性能优化
		flashAttn支持和优化headdim192+128的sink attention