2. 新增特性及变更

本章列出历次发布的新增特性及变更。

2.1. MXMACA-Driver-3.7.0.23，MXMACA-SDK-3.7.0.38，MXMACA-Pytorch-3.7.0.7，MXMACA-JAX-3.7.0.2，MXMACA-SDK-Python-3.7.0.4

模块		特性说明
Metax Driver	Firmware	FW支持通过预加载MXMACA Graph内所有核函数指令与参数，提升Graph端到端性能
	KMD	板卡状态异常时，减少下发mailbox的通讯
	KMD	优化debugfs的中断统计功能
	VT	虚拟化时多个VF支持vram均分
		增加虚拟机/容器中升级VBIOS的权限控制
		虚拟化支持单卡粒度的VF切分能力
MXMACA SDK	UMD	maca-python API首版发布，支持maca-binding python API
		mcpti完善callback cbid API，支持tensorflow profiling使用
		支持libcudacxx 12.9
		MXMACA Graph默认进行冗余边优化，提升Graph整体性能
		进程启动时自动检测GPU NUMA配置，并以表格形式呈现CPU、内存和动态库的NUMA亲和性优化提示，辅助性能调优
		trap kernel args dump功能增强
		`MACA_LAUNCH_MODE=2` （非默认值）性能优化，Kernel参数Host写入保持Uncache但Device读取改为Cache
		支持 `mcModuleLaunchBatchKernel` 接口，并支持其作为MXMACA Graph的一个节点类型
		mcMemset小shape性能提升，4字节mcMemset从10us优化到5us以内
		UMD支持通过预加载Graph内所有核函数指令与参数，提升Graph端到端性能
	CommLib	MXShmem支持集合通信类、内存操作类等接口功能
		OMPI开启OpenIB功能，支持脱离UCX的网络通信
		DeepEP支持hidden size 2816、3328等规格
		MCCL优化C600的A2Av/A2Ad通信，性能提升50%
	Compiler	mcJAX AI训推框架支持C600/N300（XCore1500/XCore1520）
	Compiler	PK FMA指令自动生成优化
	SW_ACL	flashMLA支持decode context parallel
	SW_ACL	mcTlassEx int8 w8a8 fused moe性能优化
	Install	本地离线安装MXMACA SDK时检测服务器上是否已安装其他版本的SDK，如已安装，会给出提示
	Perf Tool	增加CycleTrace Memory Latency统计，包括最大值和平均值统计
	Diagease	mxdiagease增加PCIe Atomic测试功能
MACA Pytorch	Pytorch	Pytorch软件包支持曦索X系列GPU卡

2.2. MXMACA-Driver-3.6.0.11，MXMACA-SDK-3.6.0.18，MXMACA-Pytorch-3.6.0.5

模块		特性说明
Metax Driver	Firmware	支持DRM功能
		支持CTBP功能
		支持HBM VDD margin调整
		支持CE warm packet处理
		优化MetaXLink和PCIe性能相关参数
		优化MC配置以增强HBM稳定性和可靠性
	KMD	支持xcore fake dequeue功能
	KMD	优化ETH相关的模块参数使用
	SMI	SMI接口优化harvest内容展示
MXMACA SDK	UMD	支持Graph条件节点基础功能
	UMD	发布mcSanitizer首版，支持一键定位核函数trap的代码精确位置
	CommLib	N300/C600 默认开启远读
		C600多机每机8卡场景，A2A采用节点内使用FC算法，机间使用SendRecv，带宽提升至40GB
		FC算法C600默认最大AP数由32调整为16，N300由28调整为14
		DeepEP稳定支持C600/N300 CX7多机通信
		DeepEP支持更多规格expert number及hidden size
		优化MCCL场景下C600 ETH IP性能
	Compiler	反汇编器支持处理压缩的fatbin
		支持新的printf实现方案
		Private memory消除优化支持const array场景
		优化pass pipeline降低private memory消除优化的代价，提升flash mla性能
		提升指令调度针对mma场景的优化能力
	SW_ACL	FlashAttn支持用于搜广推训练场景的HSTU attention
		优化mcDNN batchnorm算子性能
		优化mcDNN conv算子性能
		优化mctlassEx int8 scaled gemm, fused moe gemm, contiguous/masked group gemm算子性能
	MXVS	支持眼图功能
	MXVS	HBM带宽测试优化
MACA Pytorch	ACL	Pytorch新增fused_rms_norm融合算子
MACA Pytorch	ACL	Pytorch新增mxsml相关api适配

2.3. MXMACA-Driver-3.4.0.18，MXMACA-SDK-3.4.0.15，MXMACA-Pytorch-3.4.0.2

模块		特性说明
Metax Driver	Firmware	支持DPM功能
		支持RAVS功能
		支持ETH RDMA所需的配套功能
		优化了PCIe/MetaXLink参数
		更新Bounding Box数据
		优化了MC Warm Reset Sequence
		优化了Power Tuning参数
	KMD	支持ETH NIC驱动功能
		支持ETH RDMA驱动功能
		支持Warm Reset功能
		支持超多进程（MPS）模式
		支持sGPU
		优化RAS相关统计
		优化ETH不同配置和不同拓扑下的驱动默认行为
	SMI	支持sGPU
		支持查询ETH信息和状态
		支持新的拓扑类型
MXMACA SDK	UMD	支持sGPU
		支持芯片计算能力次版本号查询，次版本号编译选项进行硬件特性优化
		Stream默认调度策略优化，从严格优先级切换为加权轮询（WRR）
		优化PyTorch初始化后占用10GB系统内存的问题
		单机多卡环境下，支持任意数量GPU动态锁定/解锁同一主机内存，实现多卡H2D传输
		基于 `graph ib=3` 的情况下将graph内部所创建的stream优先级行为对齐N卡
		Kernel timeout精准定位功能添加shader done，workgroup alloc done等具体原因
	CommLib	MCCL主流集合通信原语，单机内通信性能达到软件理论值
		MCCL主流集合通信原语支持CX7多机通信，性能达到软件理论值
		DeepEP internode ll算法支持CX7多机通信
		MCCL主流集合通信原语支持ETH IP多机通信
	Tools	支持以异步附着模式追踪运行中的GPU程序
	Compiler	支持TVM编译和运行
		支持JAX ML Framework
		支持IREE推理框架
	SW_ACL	SageAttention支持Efficient attention API，支持thorough outlier smoothing和INT8 quantization
		mcDNN conv算子性能优化
		mctlassEx int8 scaled gemm, fused moe gemm, contiguous/masked group gemm算子性能优化
	MXVS	性能测试调优
	MXVS	支持ETH压测
	MX-Report	支持设置FW日志级别
	MX-Report	支持获取FW日志
	MX-Exporter	支持收集HBM温度，ETH带宽指标
	MX-Diagease	支持默认模板
MACA Pytorch	ACL	支持torch.compile运行模式
MACA Pytorch	ACL	优化triton int8 dotOp在的性能

2.4. MXMACA-Driver-3.2.0.21，MXMACA-SDK-3.2.0.12，MXMACA-Pytorch-3.2.0.6

模块		特性说明
MXMACA SDK	CommLib	MCCL支持OAM双机CX7 RDMA通信

2.5. MXMACA-Driver-3.2.0.19，MXMACA-SDK-3.2.0.11，MXMACA-Pytorch-3.2.0.6

模块		特性说明
Metax Driver	Firmware	支持SoC各固件 (SMP0/SMP1/ETHSC/XSC/CE等) 的加载和启动
		支持GPU板卡上各外围器件接口的访问和控制
		支持BMC带外管理接口
		支持SMI带内管理接口
		支持GPU板卡过温过功耗保护
		支持RAS监控及相关异常处理
		支持固件更新及备份机制
		支持mgpu (Multiple GPU) 多卡互联模式的配置和切换
		支持GPU板卡间通过ETH直连的P2P模式
		支持SRIOV Virtual Function模式
	KMD	支持PCIe，INT，SDMA，HAG，XCORE，ATU等模块驱动
		支持VRAM，XTT，USERPTR等不同domain的内存和页表管理
		支持多进程和多队列功能
		支持各模块的CE (Correctable Error) RAS监控
		支持UE错误和HBM坏页等RAS错误的监控及处理
		支持SMI用户管理接口功能
		支持硬件异常上报及处理
		支持业务事件的应用层上报
		支持mgpu MetaXLink多卡互联模式
		支持GPU板卡间通过ETH直连的P2P多卡互联模式
		支持Function Level Reset复位
		支持开启SRIOV下的Virtual Function在主机环境的flat模式基本功能
		支持开启SRIOV下的Virtual Function在容器环境的透传功能
	SMI	支持用户管理接口查询各种软硬件信息和状态
		支持用户管理接口配置各种软硬件模式
		支持用户管理接口升级固件
MXMACA SDK	UMD	支持Device/Classic Memory/Stream/Event Management API
		支持Execution Control API
		MXMACA C++支持MCRTC (Runtime Compilation Library)
		支持Occupancy API
		支持Context Management API (未提供内存管理隔离功能)
		支持Virtual Memeory Management API
		支持Stream Ordered Memory Allocator API
		支持Dynamic Parallelism API (基本功能)
		支持Predefined Satic Graph API (CUDA 11.2)
		支持Graph Memory Pool API (CUDA 11.8，在Direct Dispatch功能下支持)
		支持Texture API的1D和2D功能以及部分3D功能
		支持CUPTI Activity/Event/Metric API
		支持NVTX API Basic for PyTorch
		支持cu-bridge Linux V2
		支持GPU Command/Constant/Argument Buffer Management
		支持GPU Kernel Object/Complete Signal/Private Memory/Shared Memory/Global Memory Management
		支持host + GPU 上的 end-to-end vectorAdd 场景
		支持GPU printf Function V1
		支持GPU kernel call host function
		支持GPU kernel call kernel function V1
		支持Direct Dispatch V1
		支持Power Optimization (Voltage Droop)
		支持MCRTC & JIT
		支持MQL Driver/Packet/Signal/Memory基本功能
	Tools	支持mcProfiler支持硬件计数器到性能指标的映射
		支持mcProfiler支持性能指标的分析，包括roofline视图/饼图/柱状图/统计表
		支持cycle-trace基于ISA类型的指令流采集，展示与分析功能
	MXVS	支持各数据路径的带宽，算力，眼图，压力和功耗等基本测试功能
	CommLib	MCCL支持FC4 x 4及FC4 x 4 + ETH P2P拓扑下的基本集合通信
	CommLib	MPI/UCX支持FC4 x 4及FC4 x 4 + ETH P2P拓扑下的基本通信
	Compiler	MXCC支持 memory/maca xore/tensor core bound 场景下的adjust pass
		MXCC支持MXMACA C Programming Language
		MXCC支持OpenACC Programming Language
		Toolchain支持MXMACA clangd (including an IDE extension and a language server)
		MXCC支持memory access，instruction combine等基础优化
	SW_ACL	mcBlas/mcBlasLT支持执行scalar与vector基本运算的 Level-1 函数
		mcBlas/mcBlasLT支持执行matrix-vector运算的Level-2 函数
		mcBlas/mcBlasLT支持执行matrix-matrix运算的Level-3 函数
		mcBlas/mcBlasLT支持执行matrix-matrix运算的BLAS-extension 函数
		mcBlasLT 专用于 GEMM 相关操作
		mcThrust/mcCub支持Parallel Algorithms 函数
		mcThrust/mcCub支持Container Abstractions 函数
		mcThrust/mcCub支持Iterators & Memory Management 函数
		mcRand支持Random Number Generators
		mcRand支持Host & Device API
		mcRand支持Random Distribution
		FlashAttention支持用于推理和训练场景下快速、内存高效的exact attention 机制的 Python API
		FlashAttention支持用于推理和训练场景下快速、内存高效的exact attention 机制的 C API
		FlashAttention支持用于paged attention机制的KV cache INT8 dequantization fusion
		FlashInfer支持针对大语言模型(LLM)服务部署和推理的高性能Prefill 与 Decode 实现
		FlashMLA支持针对non-Hopper GPU 的高效 Multi-head Latent Attention decoding kernel
		mcDNN增加conv，batchnorm，pooling等算子的功能支持
		mctlassEx增加int8 scaled gemm，fused moe gemm，contiguous/masked group gemm等算子的功能支持
MACA Pytorch	ACL	支持matmul/conv/softmax/pooling等基础算子的运行
MACA Pytorch	ACL	支持amp/ddp/cudagraph模式运行