2. 新增特性及变更

本章列出历次发布的新增特性及变更。

2.1. Metax-Driver-3.3.0.4,MXMACA-SDK-3.3.0.15,MXMACA-Pytorch-3.3.0.2,MXMACA-Iree-3.3.0.0,MXMACA-JAX-3.3.0.0

模块

特性说明

Metax Driver

SMI

mx-smi温度、board sn、chip name相关优化

mx-smi优化mmio空间不够时的错误提示

mx-smi优化VBIOS文件不存在时的错误提示

MXMACA SDK

UMD

延迟系统内存初始化时机,以解决PyTorch等框架初始化时占用系统内存过多的问题

单机多卡环境下,支持任意数量GPU动态锁定/解锁同一主机内存,实现多卡H2D传输

优化 MACA_GRAPH_LAUNCH_MODE=3 的Stream优先级,即保证Graph额外创建的Stream和Graph Launch API使用的Stream优先级一致

为Kernel Timeout精准定位功能添加具体原因

CommLib

适配MIXL库,支持基本功能

DeepEP适配Hidden Size和专家数等更多参数规格,以支持更多MoE大模型

分层算法支持多机Reduce Scatter、All Gather通信功能

ACL

Xformers将attention backend所用的flashAttn2.5.3升级到2.6.3,并支持全部memory efficient forward API功能

mctlassEx新增w8a16 contiguous group gemm接口功能

mcDNN新增int8/fp16 fwd conv+gelu融合功能

FlashMLA支持deepseek v3.2所需的sparse prefill和decode功能

Tools

mcProfiler增加轮次对比功能

在单机多device场景,CycleTrace支持多卡同时执行

MXMACA PyTorch

ACL

支持 torchcodec-0.6.0

发布PyTorch2.8版本,同时移除PyTorch2.1版本

MXMACA JAX

JAX

正式发布mcJax-0.4.34 AI训推框架

2.2. Metax-Driver-3.2.1.12,MXMACA-SDK-3.2.1.10,MXMACA-Pytorch-3.2.1.3,MXMACA-Iree-3.2.1.0

模块

特性说明

Metax Driver

SMI

mx-smi 命令新增板卡级别的信息显示

SMI eeprom支持显示Board Type

MXMACA SDK

UMD

支持mcTracer / torch profiling采集新增的API接口类型数据(mcExtBatchCopyFlagAndWait, mcStreamWriteValue32/64, mcStreamWaitValue32/64)

支持应用Graph的拓扑感知和优化,自动删除DAG冗余的节点依赖

Compiler

Fortran OpenACC编译器编译时间优化及WRF/CLT工程问题修复

ACL

FlashInfer升级版本到0.2.6并保证API兼容性

FlashAttn支持GPT-OSS推理所需sink功能

mcBlas库allgather+gemm融合算子支持bias融合

mcBlas库修复了部分gemm kernel在极端情况下偏移计算错误的问题

mcsolver hegvd性能优化,针对典型应用达到性能预期

MXMACA PyTorch

ACL

catOp支持uint64

2.3. Metax-C500-Driver-3.1.0.11,MXMACA-C500-SDK-3.1.0.14,MXMACA-C500-Pytorch-3.1.0.4,MXMACA-C500-Iree-3.1.0.0

模块

特性说明

Metax Driver

Firmware

Firmware支持严重错误的掉电非易失记录功能

XCORE RAS Monitor由fw代理读取MCA信息

SMI

虚拟化warm reset,mx-smi二次确认增加命令行选项

mx-smi支持显示PCIe事件详细信息

mx-smi支持显示PCI MMIO状态,当状态异常时显示第一次发生异常的时间

增加sGPU调度延时查询接口

MXMACA SDK

UMD

支持stream占用的CE队列个数按优先级可配置且均匀划分到不同pipe,提高同级任务在不同pipe间的负载均衡

GraphhostNode的调度采用sDMA队列,替代原先的CE队列方案,以降低对kernelNode服务所用CE队列资源的占用

在Graph多流共享同一CE队列的场景下,支持跨流任务依赖关系检查,并依据依赖关系正确调度任务下发,有效防止任务阻塞

MCCL

N260通信性能提升。对于小于1MB的通信数据上,4卡通信性能提升60%~200%,8卡通信性能提升40%~130%

Compiler

编译器适配gcc13版本(Ubuntu24.04的默认版本)

支持device segmented topk,提供高性能seg-topk方法

Fortran OpenACC编译器支持CLT项目工程中新增需求特性

SW_ACL

mctlassEx int8 dequant gemm相关Python接口初版发布

mctlassEx int8 dequant gemm相关C接口初版发布

mcTlass新增Int8 MaskedGroupGemm接口功能支持

修复了mcBlasLt内存泄漏的问题

flashInfer优化了DeepSeek推理场景下normal prefill的性能

优化了mcBlas/mcBlasLt workspace处理机制

flashAttn优化了客户使用场景下headdim 32、64和256的性能

MXVS

mxvs和mxdiagease 带宽测试增加校验功能

MXMACA PyTorch

ACL

PyTorch2.4/2.6 增加Py3.12发布

spconv针对典型应用的性能优化

2.4. Metax-C500-Driver-3.0.0.5,MXMACA-C500-SDK-3.0.0.8,MXMACA-C500-Pytorch-3.0.0.3,MXMACA-C500-Iree-3.0.0.0

模块

特性说明

Metax Driver

Firmware

增加Power Persistent Mode

优化MetaXLink training失败时的提示信息,便于现场排查故障

KMD

Linux内核主线6.13版本适配

KMD安装时支持模式指定设备文件权限为 root:root 0666

支持可靠的单卡场景下unbind设备功能

Unload driver期间禁止新任务使用mxcd设备以保证驱动卸载功能正常

KMD代码在异常情况时打印返回值优化

SMI

增加单个sGPU调度策略信息的显示

MXMACA SDK

UMD

mcTracer工具支持trace区间可控

MXMACA SDK支持运维工具在程序运行过程中开启RPC并attach进来抓取MCPTI数据

mcGraph支持在mcStreamCapture期间手动添加除host节点之外的其它类型节点

优化mcMemcpyAsync小size对齐场景的性能,KV Cache 64KB大小的D2D内存拷贝从24us分别优化到graph外10us和graph内7us

trap工具功能增强,新增支持核函数参数为多维指针结构体类型

sGPU场景适配功能增强,硬件queue受限场景自动切换到CPU做同步,避免一些潜在的Hang场景

UMD动态库头文件C++符号发布改进,增加可替代的C接口,并在C++接口增加废弃告警,提示用户尽快切换到相应的C接口

MCCL

Full Connection算法支持2卡通信

MCCL支持每个rank独立设置不同的VISIBLE DEVICES

MCCL分层算法支持MACA Graph

优化internode算法性能并达到理论值

优化internode LL算法性能并达到理论值

Compiler

编译器适配gcc13版本(Ubuntu24.04的默认版本)

SW_ACL

mcEigen库从MXMACA SDK包中移除

mcTlass新增Int8 MaskedGroupGemm接口功能支持

mamba初版功能发布

发布Sage Attention2.1算子库以支持Wan等模型推理加速

FlashInfer优化了DeepSeek推理所需MLA decode性能,在EP128的batch32下性能大幅提升

mcBlasLT库Gemm与通信融合针对llama/Qwen系列重点大模型训练的性能优化

mcBlas库fp16/bf16 gemm针对大MNK情景下的性能优化

mcBlas库针对Deepseek/Qwen3等大模型推理的性能优化

mcTlass int8 fused gemm针对deepseek性能优化

mcTlass int8 fused moe扩展了输入参数的支持

MXMACA PyTorch

ACL

PyTorch tf32 gemm/conv 行为修改

torch使用flash_attn库C API接入相关功能

2.5. Metax-C500-Driver-2.33.0.9,MXMACA-C500-SDK-2.33.0.12,MXMACA-C500-Pytorch-2.33.0.5,MXMACA-C500-Iree-2.33.0.0

模块

特性说明

Metax Driver

Firmware

eeprom中存储VBIOS升级记录

KMD

提供KMD错误代码,并打印到日志

KMD提供ECC errors的统计和显示

支持使用只读方式打开文件,进行Host2Device拷贝操作

提供sGPU模式的 -l 参数功能,显示一台服务器上所有sGPU实例

提供对sGPU调度队列的优先级设置,增加运维调度的可配置灵活性

SMI提供ECC errors的统计和显示

SMI拓扑显示支持国产网卡

SMI升级Firmware前,增加检查服务器MMIO地址空间的逻辑,避免识别不到卡无法恢复的问题

整合芯片和板卡SN号,显存型号和大小的信息显示

MXMACA SDK

mxExporter

mx-exporter上报EID,ECC error指标

mx-exporter上报MetaXLink AER,收发总字节指标

UMD

MCPTI支持NVTV_FUNC_WITH_PARAMS_API

MCPTI支持Graph实例化后再开启Pytorch Profiling

MCPTI支持single-block方式配置perfcounter

当GPU资源不满足用户配置的MACA_PRIORITY_QUEUE_POLICY时,支持自动根据可用硬件Queue数目修改Queue的优先级配置

调试功能增强:支持通过配置文件设置kernel名字,使得该kernel所在rodata为readonly,便于调试内存踩踏问题

提供UMD错误代码,并打印到日志

MCCL

OAM机型默认开启PCIe链路通信,通信性能提升10%-20%

通信库支持DeepEP64通信

TransferBench增加RDMA链路检测功能,用于检测集群网络可用性

计算通信并行,AllReduce/ReduceScatter算法支持分片传输,性能提升20%

Compiler

Fortran OpenACC编译器支持WRF项目工程中新增需求特性

memcpy_async 应用接口实现

通过auto predicate optimization提升 vllm page atten BF16 性能

ACL

mctlass新增int8 batched gemm基础功能支持

mctlass新增int8 fused moe接口功能支持

mctlass int8 gemm性能优化

BLAS groupgemm 性能优化

FlashInfer优化deepseek的MLA算法在EP128切分下的性能到70%

flashMLA优化了deepseek推理所需shape的性能

MXMACA PyTorch

ACL

PyTorch2.1/2.4扩展支持sdma类型通信op

torch使用flash_attn库C API接入相关功能

IREE

新增IREE软件包,谷歌开源的机器学习推理框架,专为高效部署机器学习模型而设计的端到端编译器与运行时工具链

2.6. Metax-C500-Driver-2.32.0.6,MXMACA-C500-SDK-2.32.0.6,MXMACA-C500-Pytorch-2.32.0.3

模块

特性说明

KMD

KMD适配mlx网卡doorbell映射到gpu mem的功能

支持dragonfly拓扑基础上使能MetaXLink port5的新拓扑

支持GPU使用Linux hugetlb大页或者连续小页组成的适合合并PTE的2M页面

支持当前HW queue状态查询

UMD

MXMACA Graph支持选择内存相关节点使用Blit Kernel或SDMA

Kernel hang住时获取所有ringbuffer MqlPacket等信息

mcpti支持single-block方式配置perfcounter

UMD自适应sGPU默认开启MPS

支持 trapHandler 非致命异常command级别精准定位

UMD提供API以供查询stream复用queue的情况

UMD在Graph IB模式下移除单stream上最多使用512个active signal的限制

支持环境变量设置进程创建stream最大等待时长,避免进程hang

MCCL

UMD适配mellanox网卡doorbell地址映射接口

实现通信库alltoallV extend功能

开发32卡通信Ring算法及性能调优

实现通信库allreduce extend功能

Compiler

Fortran OpenACC编译器支持CLT/WRF项目工程中新增需求特性

通过double buffer pingpong 方案提高 gemv 性能

ACL

FlashAttention

flashAttn支持某客户推理所需特殊alibi并优化性能

flashInfer优化deepseek推理所需MLA kernel的性能

mcBlas

BLAS Customer Kernel Selection 工具支持 LLM Infer gemm 性能优化

支持 FP32 group gemm功能

mcDNN

mcDNN针对mmpre/mmdet网络性能优化

mcSolver

mcSolver geqrf性能优化

mcTlass

mcTlass增加FP32/FP16/BF16 group gemm功能支持

在MXMACA平台上支持deepseek的flashMLA并开源至github

PyTorch

发布 PyTorch 2.6

Tools

记录GPU变不可用的原因并提供sysfs接口

mx-smi sgpu 实现一次性创建需要的sGPU个数

mx-report新增lspci -vvxxxx信息收集

SMI增加nvml.h头文件中相关结构体和函数,方便编译通过

mxvs算力支持sGPU

mx-exporter支持sgpu-wheel

2.7. Metax-C500-Driver-2.31.0.6,MXMACA-C500-SDK-2.31.0.6,MXMACA-C500-Pytorch-2.31.0.4

模块

特性说明

MXMACA

软件栈

从2.31.0版本开始,正式全面支持在线安装相关功能,详情请参考https://developer.metax-tech.com/softnova/index

SDK安装路径版本号变更为3位

KMD/FW

增加对ccx fw和ccx boot(VBIOS)的版本兼容性检测

UMD

支持GPU拓扑感知

优化GraphLaunch耗时

direct dispatch模式下支持以下API:

mcDeviceSetGraphMemAttribute

mcDeviceGraphMemTr

mcDeviceGetGraphMemAttribute

默认开启kernel前L2 flush的优化

细化完善trap kernel精准定位方案

MCCL

多机SDMA sendRecv并行方案开发

集群状态检测脚本开发/优化

添加RAS功能

Dragonfly8卡通信算法优化

开发分层算法,提升OAMC550 Switch Box拓扑16卡/64卡性能

Compiler

OpenACC编译器新增对WRF项目工程中涵盖的语义特性支持

新增OpenACC编译器运行时依赖Python包列表显示的选项支持

用table lookup算法优化vLLM kDequantize性能

ACL

FlashAttention

在FlashAttention中添加headdim 512

flashAttn提供kernel selector插件以针对特定shape选择性能更好的kernel

flashAttn提供kv cache int8反量化功能以支持decoder阶段提升性能

flashInfer升级版本到0.2.x版本以支持deepseekV3推理

用fast div方案优化flash attn2性能

通过B16寄存器分配提高flash attn2性能

新增w8a8 azp功能

mcBlasLT

支持GEMM+Commincation API

优化gemm+bias API的性能

mcBlas

优化gemv性能

优化大模型推理(包括deepseek r1)的性能

mcDNN

优化mcDNN FP32/TF32单向LSTM性能

mcFFT

优化8192范围内素数size的性能,从30%提升到60%

用metaxgpu slp方案优化triton-flash attention2 bwd的性能

TF32&Int8 GEMM性能有提升

优化deepseek mla triton算子性能

优化deepseek fused moe triton算子性能

优化PyTorch cat算子性能

Tools

mcTracer

mcTracer工具支持profiling区间可配置

mxvs工具打流支持switch地址遍历

2.8. Metax-C500-Driver-2.29.0.13,MXMACA-C500-SDK-2.29.0.19,MXMACA-C500-Pytorch-2.29.0.4

模块

特性说明

MXMACA

软件栈

支持基于APT/YUM的MXMACA SDK和Driver在线安装与卸载的基本功能,以及PIP方式的Pytorch在线安装功能,详情请参考https://repos.metax-tech.com/gitea/repos/index/wiki/MACA.md

Compiler

Fortran OpenACC编译器中支持了Reduction分离特性

新增mlir-translate编译器组件工具,支持mlir文件到llvm ir文件的转换

PyTorch

发布mcPytorch 2.4版本

mcAudio发布2.4版本,功能支持95%

ACL

mcTriton

mcTriton发布3.0版本

改进Post-RA调度策略,消除了非必要snop,Triton的TN pipeline性能提升5%

mcspconv

发布mcspconv库初版

mcBLAS

mcBLAS库优化了部分大模型推理场景下的性能

flashAttn

flashAttn库优化了部分大模型推理场景下paged attention的性能

mcTlass

mcTlass优化int8 TN GEMM在vllm w8a8应用场景下的性能

MCCL

MCCL优化C500/C550 AllToAll通信,整体性能平均提升20%

MCCL优化C500/C550低时延算法,小数据量通信时延平均降低30%

MCCL优化C500X Switch跨机EP4/EP8通信性能,整体性能平均提升200%

MCCL支持异构集群

UMD

Direct Dispatch的command状态更新,提升部分场景的性能

github上选取有意义的第三方开源项目,通过率达到 3453/3838 = 90%

AI

MXMACA Graph的并行节点最大限度分散到不同硬件queue,提升部分场景的性能

升级flashAttn库版本到2.6.3,增加了softcap、small page size推理等功能的支持

Tools

mcTracer/mcpti的tracing数据准确性提升,改进mcMemcpy在大size拷贝时耗时统计的精确性

mcTracer/mcpti增加后台非实时线程处理app线程的tracing数据,降低app线程进行tracing的overhead(在某多进程多卡场景的profiling时间从75s减少到15s)

2.9. Metax-C500-Driver-2.27.0.11,MXMACA-C500-SDK-2.27.0.11,MXMACA-C500-Pytorch-2.27.0.8

模块

特性说明

MXMACA

软件栈

支持天固Gen5/超聚变/单机Dragonfly 16卡服务器

mcTracer

支持单机多进程多卡场景,支持Call Stack显示

Compiler

支持OpenCL v1.2 Spec中的所有built-in function

支持OpenCL编译器mxcc-ocl

使能了OpenACC编译中的collapse子句

发布了MXMACA Clangd语言编程工具

在MI调度阶段引入了Igroup功能模块,为MMA相关的代码段引入了用户可配置的调度策略,提高了指令调度的效率

提升mcRTC兼容性,大幅降低用户对jitify的相关代码进行修改适配

SOMA兼容虚拟地址的管理行为,减少部分场景潜在的显存碎片化问题

优化了MI调度模块,使得Triton MMA的utilization从60%提升到73%

优化了Uniform branch处理方法,提升了mcTlass GEMM i8性能5%~20%

优化了pk_fma处理策略,提升vllm gptq kernel性能约20%

优化了BF16 cvt和compute的处理,提升了BF16 hgemm_nt的性能约25%,达到FP16 hgemm_nt的85%

提升了OpenACC的性能,使得VASP Benchmark的性能有提高

KMD

VBIOS

增加对RAVS电压补偿方案、光模块热插拔功能、SDMA对tracer timestamp的支持

完善CE对direct_dispatch模式的支持

UMD

MCCL

支持Dragonfly 32卡拓扑,支持博通/云合等网卡交换机

Graph

提升Graph IB模式性能,并且默认开启Graph IB模式,提升AI推理场景性能

提升单卡部分size D2D memcpy性能(4MB-64MB提升约30%)

提升单节点多卡环境DMA queue的吞吐量,大幅提升DMA queue满负荷使用场景的性能

VPU

mxJPEG

VPUD/VPUE支持stream操作,VPUD支持batch功能。

ACL

mcBLAS

mcBlasLt库支持了GEMM的out of place功能

mcBlas库修复了kernel selection工具在不同Python版本下的兼容问题

mcBlas库支持了deterministic mode

BF16 GEMM性能表现提升至与FP16 GEMM一致水平

优化了group GEMM API在MOE模型训练场景下的性能

优化了BF16/FP16 GEMM在problem size非对齐场景下的性能

优化了BF16/FP16在new fused config 2M page size下的性能

mcDNN

支持了BF16 fwd conv融合,LSTM新增支持dropout

BF16 fwd conv性能表现提升至与FP16 fwd conv一致水平

mcTlass

支持了BF16 group GEMM功能,和INT8 GEMM下ScaleBias类型融合的功能

FlashAttn

增加DeepSeek v2的MLA功能支持,并优化了性能

优化了head dim为32奇数倍的推理算子性能

FlashInfer

发布0.1.5完整功能版本,支持prefill、decoder和cascade等推理需求

mcFFT

优化了127以内素数基的性能

优化了小size 2D和3D real transform算子性能

mcImage

mcImage性能提升50%-10倍

mcMathLib

15个常用接口性能提升10%以上

PyTorch

mcPytorch增加了ProcessGroup的mpi后端支持

移除kernel中关于assert的使用,提升了相关kernel的性能

优化部分非连续输入输出场景下cat/reduce算子性能

2.10. Metax-C500-Driver-2.25.2.8,MXMACA-C500-SDK-2.25.2.9,MXMACA-C500-Pytorch-2.25.2.8

模块

特性说明

UMD

Runtime API

新增API mcLaunchKernelExC,通过扩展属性配置CooperativeGroup指定核函数的内存同步域,这对于跨设备的内存同步和异步执行非常有用。

mcpti

activity质量增强

VPU

优化VPUD 264 sps/pps

AI

大模型在OAM机型上的通信算子性能符合理论值

triton

提升fp16 MMA on triton性能,峰值性能达到标成算力的65%

优化冗余的跨基本块的fp16数据合并操作,提升10%的triton MMA场景性能

ACL

Flash Attention

优化了headdim96的前向和反向功能

优化了headdim256的decode功能

mcBlas

针对大模型推理相关模型进行了性能提升

tools

inspector

发布集群环境检测工具inspector

mcProfiler

优化mcProfiler UX

mx-report

提供mx-report工具试用版

2.11. Metax-C500-Driver-2.25.0.3,MXMACA-C500-SDK-2.25.0.7,MXMACA-C500-Pytorch-2.25.0.0

模块

特性说明

MXMACA

本版本旨在快速提供MXMACA软件栈在MOE(混合专家模型)技术上的最新支持成果,后续版本仍会持续优化

mcpti

新增Graph API IB模式的tracer功能支持

mcBLAS

增加了Group GEMM相关API的支持

针对大模型推理相关模型进行了性能提升

加强使用Graph API测试场景覆盖

Compiler

使能OpenAcc P0特性和OpenCL基本特性

优化pkfma和FP16 cvt执行策略,提升vLLM关键Kernel GPTQ性能

优化冗余的跨基本块的FP16数据合并操作,提升triton MMA场景性能

加强Direct Dispatch的测试场景覆盖

加强显存使用复杂场景的测试场景覆盖

FlashAttention优化了headdim96的前向和反向功能、headdim256的decode性能

提升FP16 MMA on triton性能

2.12. Metax-C500-Driver-2.24.0.10,MXMACA-C500-SDK-2.24.0.12,MXMACA-C500-Pytorch-2.24.0.5

模块

特性说明

UMD

提供DirectDispatch功能

加强了多进程支持的稳定性,并有小幅性能提升

MCCL

支持易构集群

C500X

Ring算法支持网卡和PCIe并行通信,分布算法性能优化,TP8带宽性能提升

ARM

支持复用PCIe链路通信,单机多卡通信带宽性能提升

Graph

API

支持Memory Node基本功能

ACL

mcTracer

支持根据UMD memory tracing log单独生成trace文件,并可以通过mcTracer-Viewer打开并显示

mcDNN

增加了FP16前向depthwise卷积融合功能

mcDNN/

mcBLAS

增加外置kernel选择优化工具

Flash Attention

增加MHA/GQA backward全部headdim的支持

增加对decoder attention和paged attention全部headdim的支持

支持更通用的attention mask

Compiler

增加global load/store builtin function with predicator

ARM

修复了一些ARM平台上的软件适配问题

2.13. Metax-C500-Driver-2.23.0.1014,MXMACA-C500-SDK-2.23.0.1018,MXMACA-C500-Pytorch-2.23.0.1011,MXMACA-C500-K8s-0.7.13

模块

特性说明

C500X

MetaXLink

支持隐式MetaXLink training

MCCL

支持C500X

ACL

mcDNN

提升FP16 depth-wise卷积性能

mcBLAS

提升大语言模型场景下的矩阵乘法性能

Flash Attention

提升head dimension部分性能

PyTorch

新增支持python 3.10

新增支持torch2.1

Compiler

新增编译选项-mllvm -metaxgpu-lduB16=true

Triton

支持triton2.1

mcTracer

支持根据热点API slice排序

Bug修复

修复了200+ reported bug,包括 5+ hot issue

2.14. MXMACA-C500-2.22.0.9 amd64和MXMACA-C500-2.22.0.11 arm64

模块

特性说明

OS适配

本次发布新增OS BCLinux R8 U2,kernel 4.19.0-240.23.11.el8_2.bclinux.x86_64

支持飞腾5000C ARM系统,kernel 5.15.0-1.10.6.v2307.ky10h.aarch64

驱动

Warm Reset

支持Warm Reset方式

ACL

发布mcApex和mcXformer

Bug修复

修复了100+ reported bug,包括 1 hot issue

2.15. MXMACA-C500-2.20.2.19

模块

特性说明

OS适配

本次发布新增OS ALinux3,kernel 5.10.134-13.1.al8.x86_64

本次发布新增OS CTYun 23.01,kernel 5.10.0-136.12.0.86.ctl3.x86_64

本次发布新增OS x86_64 Kylin V10 SP2,kernel 5.10.0-136.12.0.86.ctl3.x86_64

本次发布新增OS KeyarchOS 5.8,kernel 4.19.91-27.4.19.kos5.x86_64

驱动

VPU

新增支持多进程FFmpeg编解码

Bug修复

修复了200+ reported bug,包括 1 hot issue

2.16. MXMACA-C500-2.19.2.23

模块

特性说明

Bug修复

修复了220+ reported bug,包括 19 hot issue

2.17. MXMACA-C500-2.19.2.7

模块

特性说明

Bug修复

修复了160+ reported bug,包括 13 hot issue

2.18. MXMACA-C500-2.19.0.12

模块

特性说明

Bug修复

修复了160+ reported bug,包括7 hot issue

2.19. MXMACA-C500-2.18.0.4

模块

特性说明

Bug修复

修复了reported bug

2.20. MXMACA-C500-2.17.3.11

模块

特性说明

驱动

内核态驱动

新增支持CC Linux 22.09

虚拟化

新增支持虚拟化相关功能

VPU

新增支持264/265/jpeg编码,264/265/av1/avs2/jpeg解码,8k 30fps

Bug修复

修复了57 reported bug,包括24 hot issue

2.21. MXMACA-C500-2.16.1.11

模块

特性说明

驱动

内核态驱动

新增支持RedHat 9/CentOS 9和BC-Linux for Euler(21.10及以上)

Bug修复

修复了120+ reported bug,包括10+ hot issue

2.22. MXMACA-C500-2.15.0.7

模块

特性说明

驱动

固件

支持C500芯片上运行的基本固件功能

内核态驱动

支持C500芯片上运行的基本内核功能

用户态驱动

支持C500芯片上运行的基本用户态驱动功能

编译器

编译器

支持基本C500编译器功能

数学库

基本数学库

支持C500芯片上运行的基本数学库功能

Pytorch

支持C500芯片上运行的Pytorch功能