2. 新增特性及变更
本章列出历次发布的新增特性及变更。
2.1. MXMACA-Driver-3.7.0.23,MXMACA-SDK-3.7.0.38,MXMACA-Pytorch-3.7.0.7,MXMACA-JAX-3.7.0.2,MXMACA-SDK-Python-3.7.0.4
模块 |
特性说明 |
|
|---|---|---|
Metax Driver |
Firmware |
FW支持通过预加载MXMACA Graph内所有核函数指令与参数,提升Graph端到端性能 |
KMD |
板卡状态异常时,减少下发mailbox的通讯 |
|
优化debugfs的中断统计功能 |
||
VT |
虚拟化时多个VF支持vram均分 |
|
增加虚拟机/容器中升级VBIOS的权限控制 |
||
虚拟化支持单卡粒度的VF切分能力 |
||
MXMACA SDK |
UMD |
maca-python API首版发布,支持maca-binding python API |
mcpti完善callback cbid API,支持tensorflow profiling使用 |
||
支持libcudacxx 12.9 |
||
MXMACA Graph默认进行冗余边优化,提升Graph整体性能 |
||
进程启动时自动检测GPU NUMA配置,并以表格形式呈现CPU、内存和动态库的NUMA亲和性优化提示,辅助性能调优 |
||
trap kernel args dump功能增强 |
||
|
||
支持 |
||
mcMemset小shape性能提升,4字节mcMemset从10us优化到5us以内 |
||
UMD支持通过预加载Graph内所有核函数指令与参数,提升Graph端到端性能 |
||
CommLib |
MXShmem支持集合通信类、内存操作类等接口功能 |
|
OMPI开启OpenIB功能,支持脱离UCX的网络通信 |
||
DeepEP支持hidden size 2816、3328等规格 |
||
MCCL优化C600的A2Av/A2Ad通信,性能提升50% |
||
Compiler |
mcJAX AI训推框架支持C600/N300(XCore1500/XCore1520) |
|
PK FMA指令自动生成优化 |
||
SW_ACL |
flashMLA支持decode context parallel |
|
mcTlassEx int8 w8a8 fused moe性能优化 |
||
Install |
本地离线安装MXMACA SDK时检测服务器上是否已安装其他版本的SDK,如已安装,会给出提示 |
|
Perf Tool |
增加CycleTrace Memory Latency统计,包括最大值和平均值统计 |
|
Diagease |
mxdiagease增加PCIe Atomic测试功能 |
|
MACA Pytorch |
Pytorch |
Pytorch软件包支持曦索X系列GPU卡 |
2.2. MXMACA-Driver-3.6.0.11,MXMACA-SDK-3.6.0.18,MXMACA-Pytorch-3.6.0.5
模块 |
特性说明 |
|
|---|---|---|
Metax Driver |
Firmware |
支持DRM功能 |
支持CTBP功能 |
||
支持HBM VDD margin调整 |
||
支持CE warm packet处理 |
||
优化MetaXLink和PCIe性能相关参数 |
||
优化MC配置以增强HBM稳定性和可靠性 |
||
KMD |
支持xcore fake dequeue功能 |
|
优化ETH相关的模块参数使用 |
||
SMI |
SMI接口优化harvest内容展示 |
|
MXMACA SDK |
UMD |
支持Graph条件节点基础功能 |
发布mcSanitizer首版,支持一键定位核函数trap的代码精确位置 |
||
CommLib |
N300/C600 默认开启远读 |
|
C600多机每机8卡场景,A2A采用节点内使用FC算法,机间使用SendRecv,带宽提升至40GB |
||
FC算法C600默认最大AP数由32调整为16,N300由28调整为14 |
||
DeepEP稳定支持C600/N300 CX7多机通信 |
||
DeepEP支持更多规格expert number及hidden size |
||
优化MCCL场景下C600 ETH IP性能 |
||
Compiler |
反汇编器支持处理压缩的fatbin |
|
支持新的printf实现方案 |
||
Private memory消除优化支持const array场景 |
||
优化pass pipeline降低private memory消除优化的代价,提升flash mla性能 |
||
提升指令调度针对mma场景的优化能力 |
||
SW_ACL |
FlashAttn支持用于搜广推训练场景的HSTU attention |
|
优化mcDNN batchnorm算子性能 |
||
优化mcDNN conv算子性能 |
||
优化mctlassEx int8 scaled gemm, fused moe gemm, contiguous/masked group gemm算子性能 |
||
MXVS |
支持眼图功能 |
|
HBM带宽测试优化 |
||
MACA Pytorch |
ACL |
Pytorch新增fused_rms_norm融合算子 |
Pytorch新增mxsml相关api适配 |
2.3. MXMACA-Driver-3.4.0.18,MXMACA-SDK-3.4.0.15,MXMACA-Pytorch-3.4.0.2
模块 |
特性说明 |
|
|---|---|---|
Metax Driver |
Firmware |
支持DPM功能 |
支持RAVS功能 |
||
支持ETH RDMA所需的配套功能 |
||
优化了PCIe/MetaXLink参数 |
||
更新Bounding Box数据 |
||
优化了MC Warm Reset Sequence |
||
优化了Power Tuning参数 |
||
KMD |
支持ETH NIC驱动功能 |
|
支持ETH RDMA驱动功能 |
||
支持Warm Reset功能 |
||
支持超多进程(MPS)模式 |
||
支持sGPU |
||
优化RAS相关统计 |
||
优化ETH不同配置和不同拓扑下的驱动默认行为 |
||
SMI |
支持sGPU |
|
支持查询ETH信息和状态 |
||
支持新的拓扑类型 |
||
MXMACA SDK |
UMD |
支持sGPU |
支持芯片计算能力次版本号查询,次版本号编译选项进行硬件特性优化 |
||
Stream默认调度策略优化,从严格优先级切换为加权轮询(WRR) |
||
优化PyTorch初始化后占用10GB系统内存的问题 |
||
单机多卡环境下,支持任意数量GPU动态锁定/解锁同一主机内存,实现多卡H2D传输 |
||
基于 |
||
Kernel timeout精准定位功能添加shader done,workgroup alloc done等具体原因 |
||
CommLib |
MCCL主流集合通信原语,单机内通信性能达到软件理论值 |
|
MCCL主流集合通信原语支持CX7多机通信,性能达到软件理论值 |
||
DeepEP internode ll算法支持CX7多机通信 |
||
MCCL主流集合通信原语支持ETH IP多机通信 |
||
Tools |
支持以异步附着模式追踪运行中的GPU程序 |
|
Compiler |
支持TVM编译和运行 |
|
支持JAX ML Framework |
||
支持IREE推理框架 |
||
SW_ACL |
SageAttention支持Efficient attention API,支持thorough outlier smoothing和INT8 quantization |
|
mcDNN conv算子性能优化 |
||
mctlassEx int8 scaled gemm, fused moe gemm, contiguous/masked group gemm算子性能优化 |
||
MXVS |
性能测试调优 |
|
支持ETH压测 |
||
MX-Report |
支持设置FW日志级别 |
|
支持获取FW日志 |
||
MX-Exporter |
支持收集HBM温度,ETH带宽指标 |
|
MX-Diagease |
支持默认模板 |
|
MACA Pytorch |
ACL |
支持torch.compile运行模式 |
优化triton int8 dotOp在的性能 |
2.4. MXMACA-Driver-3.2.0.21,MXMACA-SDK-3.2.0.12,MXMACA-Pytorch-3.2.0.6
模块 |
特性说明 |
|
|---|---|---|
MXMACA SDK |
CommLib |
MCCL支持OAM双机CX7 RDMA通信 |
2.5. MXMACA-Driver-3.2.0.19,MXMACA-SDK-3.2.0.11,MXMACA-Pytorch-3.2.0.6
模块 |
特性说明 |
|
|---|---|---|
Metax Driver |
Firmware |
支持SoC各固件 (SMP0/SMP1/ETHSC/XSC/CE等) 的加载和启动 |
支持GPU板卡上各外围器件接口的访问和控制 |
||
支持BMC带外管理接口 |
||
支持SMI带内管理接口 |
||
支持GPU板卡过温过功耗保护 |
||
支持RAS监控及相关异常处理 |
||
支持固件更新及备份机制 |
||
支持mgpu (Multiple GPU) 多卡互联模式的配置和切换 |
||
支持GPU板卡间通过ETH直连的P2P模式 |
||
支持SRIOV Virtual Function模式 |
||
KMD |
支持PCIe,INT,SDMA,HAG,XCORE,ATU等模块驱动 |
|
支持VRAM,XTT,USERPTR等不同domain的内存和页表管理 |
||
支持多进程和多队列功能 |
||
支持各模块的CE (Correctable Error) RAS监控 |
||
支持UE错误和HBM坏页等RAS错误的监控及处理 |
||
支持SMI用户管理接口功能 |
||
支持硬件异常上报及处理 |
||
支持业务事件的应用层上报 |
||
支持mgpu MetaXLink多卡互联模式 |
||
支持GPU板卡间通过ETH直连的P2P多卡互联模式 |
||
支持Function Level Reset复位 |
||
支持开启SRIOV下的Virtual Function在主机环境的flat模式基本功能 |
||
支持开启SRIOV下的Virtual Function在容器环境的透传功能 |
||
SMI |
支持用户管理接口查询各种软硬件信息和状态 |
|
支持用户管理接口配置各种软硬件模式 |
||
支持用户管理接口升级固件 |
||
MXMACA SDK |
UMD |
支持Device/Classic Memory/Stream/Event Management API |
支持Execution Control API |
||
MXMACA C++支持MCRTC (Runtime Compilation Library) |
||
支持Occupancy API |
||
支持Context Management API (未提供内存管理隔离功能) |
||
支持Virtual Memeory Management API |
||
支持Stream Ordered Memory Allocator API |
||
支持Dynamic Parallelism API (基本功能) |
||
支持Predefined Satic Graph API (CUDA 11.2) |
||
支持Graph Memory Pool API (CUDA 11.8,在Direct Dispatch功能下支持) |
||
支持Texture API的1D和2D功能以及部分3D功能 |
||
支持CUPTI Activity/Event/Metric API |
||
支持NVTX API Basic for PyTorch |
||
支持cu-bridge Linux V2 |
||
支持GPU Command/Constant/Argument Buffer Management |
||
支持GPU Kernel Object/Complete Signal/Private Memory/Shared Memory/Global Memory Management |
||
支持host + GPU 上的 end-to-end vectorAdd 场景 |
||
支持GPU printf Function V1 |
||
支持GPU kernel call host function |
||
支持GPU kernel call kernel function V1 |
||
支持Direct Dispatch V1 |
||
支持Power Optimization (Voltage Droop) |
||
支持MCRTC & JIT |
||
支持MQL Driver/Packet/Signal/Memory基本功能 |
||
Tools |
支持mcProfiler支持硬件计数器到性能指标的映射 |
|
支持mcProfiler支持性能指标的分析,包括roofline视图/饼图/柱状图/统计表 |
||
支持cycle-trace基于ISA类型的指令流采集,展示与分析功能 |
||
MXVS |
支持各数据路径的带宽,算力,眼图,压力和功耗等基本测试功能 |
|
CommLib |
MCCL支持FC4 x 4及FC4 x 4 + ETH P2P拓扑下的基本集合通信 |
|
MPI/UCX支持FC4 x 4及FC4 x 4 + ETH P2P拓扑下的基本通信 |
||
Compiler |
MXCC支持 memory/maca xore/tensor core bound 场景下的adjust pass |
|
MXCC支持MXMACA C Programming Language |
||
MXCC支持OpenACC Programming Language |
||
Toolchain支持MXMACA clangd (including an IDE extension and a language server) |
||
MXCC支持memory access,instruction combine等基础优化 |
||
SW_ACL |
mcBlas/mcBlasLT支持执行scalar与vector基本运算的 Level-1 函数 |
|
mcBlas/mcBlasLT支持执行matrix-vector运算的Level-2 函数 |
||
mcBlas/mcBlasLT支持执行matrix-matrix运算的Level-3 函数 |
||
mcBlas/mcBlasLT支持执行matrix-matrix运算的BLAS-extension 函数 |
||
mcBlasLT 专用于 GEMM 相关操作 |
||
mcThrust/mcCub支持Parallel Algorithms 函数 |
||
mcThrust/mcCub支持Container Abstractions 函数 |
||
mcThrust/mcCub支持Iterators & Memory Management 函数 |
||
mcRand支持Random Number Generators |
||
mcRand支持Host & Device API |
||
mcRand支持Random Distribution |
||
FlashAttention支持用于推理和训练场景下快速、内存高效的exact attention 机制的 Python API |
||
FlashAttention支持用于推理和训练场景下快速、内存高效的exact attention 机制的 C API |
||
FlashAttention支持用于paged attention机制的KV cache INT8 dequantization fusion |
||
FlashInfer支持针对大语言模型(LLM)服务部署和推理的高性能Prefill 与 Decode 实现 |
||
FlashMLA支持针对non-Hopper GPU 的高效 Multi-head Latent Attention decoding kernel |
||
mcDNN增加conv,batchnorm,pooling等算子的功能支持 |
||
mctlassEx增加int8 scaled gemm,fused moe gemm,contiguous/masked group gemm等算子的功能支持 |
||
MACA Pytorch |
ACL |
支持matmul/conv/softmax/pooling等基础算子的运行 |
支持amp/ddp/cudagraph模式运行 |