2. 新增特性及变更
本章列出历次发布的新增特性及变更。
2.1. MXMACA-C500-Driver-3.1.0.11,MXMACA-C500-SDK-3.1.0.14,MXMACA-C500-Pytorch-3.1.0.4,MXMACA-C500-Iree-3.1.0.0
模块 |
特性说明 |
|
|---|---|---|
Metax Driver |
Firmware |
Firmware支持严重错误的掉电非易失记录功能 |
XCORE RAS Monitor由fw代理读取MCA信息 |
||
SMI |
虚拟化warm reset,mx-smi二次确认增加命令行选项 |
|
mx-smi支持显示PCIe事件详细信息 |
||
mx-smi支持显示PCI MMIO状态,当状态异常时显示第一次发生异常的时间 |
||
增加sGPU调度延时查询接口 |
||
MXMACA SDK |
UMD |
支持stream占用的CE队列个数按优先级可配置且均匀划分到不同pipe,提高同级任务在不同pipe间的负载均衡 |
GraphhostNode的调度采用sDMA队列,替代原先的CE队列方案,以降低对kernelNode服务所用CE队列资源的占用 |
||
在Graph多流共享同一CE队列的场景下,支持跨流任务依赖关系检查,并依据依赖关系正确调度任务下发,有效防止任务阻塞 |
||
MCCL |
N260通信性能提升。对于小于1MB的通信数据上,4卡通信性能提升60%~200%,8卡通信性能提升40%~130% |
|
Compiler |
编译器适配gcc13版本(Ubuntu24.04的默认版本) |
|
支持device segmented topk,提供高性能seg-topk方法 |
||
Fortran OpenACC编译器支持CLT项目工程中新增需求特性 |
||
SW_ACL |
mctlassEx int8 dequant gemm相关Python接口初版发布 |
|
mctlassEx int8 dequant gemm相关C接口初版发布 |
||
mcTlass新增Int8 MaskedGroupGemm接口功能支持 |
||
修复了mcBlasLt内存泄漏的问题 |
||
flashInfer优化了DeepSeek推理场景下normal prefill的性能 |
||
优化了mcBlas/mcBlasLt workspace处理机制 |
||
flashAttn优化了客户使用场景下headdim 32、64和256的性能 |
||
MXVS |
mxvs和mxdiagease 带宽测试增加校验功能 |
|
MXMACA PyTorch |
ACL |
PyTorch2.4/2.6 增加Py3.12发布 |
spconv针对典型应用的性能优化 |
2.2. MXMACA-C500-Driver-3.0.0.5,MXMACA-C500-SDK-3.0.0.8,MXMACA-C500-Pytorch-3.0.0.3,MXMACA-C500-Iree-3.0.0.0
模块 |
特性说明 |
|
|---|---|---|
Metax Driver |
Firmware |
增加Power Persistent Mode |
优化MetaXLink training失败时的提示信息,便于现场排查故障 |
||
KMD |
Linux内核主线6.13版本适配 |
|
KMD安装时支持模式指定设备文件权限为 |
||
支持可靠的单卡场景下unbind设备功能 |
||
Unload driver期间禁止新任务使用mxcd设备以保证驱动卸载功能正常 |
||
KMD代码在异常情况时打印返回值优化 |
||
SMI |
增加单个sGPU调度策略信息的显示 |
|
MXMACA SDK |
UMD |
mcTracer工具支持trace区间可控 |
MXMACA SDK支持运维工具在程序运行过程中开启RPC并attach进来抓取MCPTI数据 |
||
mcGraph支持在mcStreamCapture期间手动添加除host节点之外的其它类型节点 |
||
优化mcMemcpyAsync小size对齐场景的性能,KV Cache 64KB大小的D2D内存拷贝从24us分别优化到graph外10us和graph内7us |
||
trap工具功能增强,新增支持核函数参数为多维指针结构体类型 |
||
sGPU场景适配功能增强,硬件queue受限场景自动切换到CPU做同步,避免一些潜在的Hang场景 |
||
UMD动态库头文件C++符号发布改进,增加可替代的C接口,并在C++接口增加废弃告警,提示用户尽快切换到相应的C接口 |
||
MCCL |
Full Connection算法支持2卡通信 |
|
MCCL支持每个rank独立设置不同的VISIBLE DEVICES |
||
MCCL分层算法支持MACA Graph |
||
优化internode算法性能并达到理论值 |
||
优化internode LL算法性能并达到理论值 |
||
Compiler |
编译器适配gcc13版本(Ubuntu24.04的默认版本) |
|
SW_ACL |
mcEigen库从MXMACA SDK包中移除 |
|
mcTlass新增Int8 MaskedGroupGemm接口功能支持 |
||
mamba初版功能发布 |
||
发布Sage Attention2.1算子库以支持Wan等模型推理加速 |
||
FlashInfer优化了DeepSeek推理所需MLA decode性能,在EP128的batch32下性能大幅提升 |
||
mcBlasLT库Gemm与通信融合针对llama/Qwen系列重点大模型训练的性能优化 |
||
mcBlas库fp16/bf16 gemm针对大MNK情景下的性能优化 |
||
mcBlas库针对Deepseek/Qwen3等大模型推理的性能优化 |
||
mcTlass int8 fused gemm针对deepseek性能优化 |
||
mcTlass int8 fused moe扩展了输入参数的支持 |
||
MXMACA PyTorch |
ACL |
PyTorch tf32 gemm/conv 行为修改 |
torch使用flash_attn库C API接入相关功能 |
2.3. MXMACA-C500-Driver-2.33.0.9,MXMACA-C500-SDK-2.33.0.12,MXMACA-C500-Pytorch-2.33.0.5,MXMACA-C500-Iree-2.33.0.0
模块 |
特性说明 |
|
|---|---|---|
Metax Driver |
Firmware |
eeprom中存储VBIOS升级记录 |
KMD |
提供KMD错误代码,并打印到日志 |
|
KMD提供ECC errors的统计和显示 |
||
支持使用只读方式打开文件,进行Host2Device拷贝操作 |
||
提供sGPU模式的 |
||
提供对sGPU调度队列的优先级设置,增加运维调度的可配置灵活性 |
||
SMI提供ECC errors的统计和显示 |
||
SMI拓扑显示支持国产网卡 |
||
SMI升级Firmware前,增加检查服务器MMIO地址空间的逻辑,避免识别不到卡无法恢复的问题 |
||
整合芯片和板卡SN号,显存型号和大小的信息显示 |
||
MXMACA SDK |
mxExporter |
mx-exporter上报EID,ECC error指标 |
mx-exporter上报MetaXLink AER,收发总字节指标 |
||
UMD |
MCPTI支持NVTV_FUNC_WITH_PARAMS_API |
|
MCPTI支持Graph实例化后再开启Pytorch Profiling |
||
MCPTI支持single-block方式配置perfcounter |
||
当GPU资源不满足用户配置的MACA_PRIORITY_QUEUE_POLICY时,支持自动根据可用硬件Queue数目修改Queue的优先级配置 |
||
调试功能增强:支持通过配置文件设置kernel名字,使得该kernel所在rodata为readonly,便于调试内存踩踏问题 |
||
提供UMD错误代码,并打印到日志 |
||
MCCL |
OAM机型默认开启PCIe链路通信,通信性能提升10%-20% |
|
通信库支持DeepEP64通信 |
||
TransferBench增加RDMA链路检测功能,用于检测集群网络可用性 |
||
计算通信并行,AllReduce/ReduceScatter算法支持分片传输,性能提升20% |
||
Compiler |
Fortran OpenACC编译器支持WRF项目工程中新增需求特性 |
|
memcpy_async 应用接口实现 |
||
通过auto predicate optimization提升 vllm page atten BF16 性能 |
||
ACL |
mctlass新增int8 batched gemm基础功能支持 |
|
mctlass新增int8 fused moe接口功能支持 |
||
mctlass int8 gemm性能优化 |
||
BLAS groupgemm 性能优化 |
||
FlashInfer优化deepseek的MLA算法在EP128切分下的性能到70% |
||
flashMLA优化了deepseek推理所需shape的性能 |
||
MXMACA PyTorch |
ACL |
PyTorch2.1/2.4扩展支持sdma类型通信op |
torch使用flash_attn库C API接入相关功能 |
||
IREE |
新增IREE软件包,谷歌开源的机器学习推理框架,专为高效部署机器学习模型而设计的端到端编译器与运行时工具链 |
2.4. MXMACA-C500-Driver-2.32.0.6,MXMACA-C500-SDK-2.32.0.6,MXMACA-C500-Pytorch-2.32.0.3
模块 |
特性说明 |
|
|---|---|---|
KMD |
KMD适配mlx网卡doorbell映射到gpu mem的功能 |
|
支持dragonfly拓扑基础上使能MetaXLink port5的新拓扑 |
||
支持GPU使用Linux hugetlb大页或者连续小页组成的适合合并PTE的2M页面 |
||
支持当前HW queue状态查询 |
||
UMD |
MXMACA Graph支持选择内存相关节点使用Blit Kernel或SDMA |
|
Kernel hang住时获取所有ringbuffer MqlPacket等信息 |
||
mcpti支持single-block方式配置perfcounter |
||
UMD自适应sGPU默认开启MPS |
||
支持 trapHandler 非致命异常command级别精准定位 |
||
UMD提供API以供查询stream复用queue的情况 |
||
UMD在Graph IB模式下移除单stream上最多使用512个active signal的限制 |
||
支持环境变量设置进程创建stream最大等待时长,避免进程hang |
||
MCCL |
UMD适配mellanox网卡doorbell地址映射接口 |
|
实现通信库alltoallV extend功能 |
||
开发32卡通信Ring算法及性能调优 |
||
实现通信库allreduce extend功能 |
||
Compiler |
Fortran OpenACC编译器支持CLT/WRF项目工程中新增需求特性 |
|
通过double buffer pingpong 方案提高 gemv 性能 |
||
ACL |
FlashAttention |
flashAttn支持某客户推理所需特殊alibi并优化性能 |
flashInfer优化deepseek推理所需MLA kernel的性能 |
||
mcBlas |
BLAS Customer Kernel Selection 工具支持 LLM Infer gemm 性能优化 |
|
支持 FP32 group gemm功能 |
||
mcDNN |
mcDNN针对mmpre/mmdet网络性能优化 |
|
mcSolver |
mcSolver geqrf性能优化 |
|
mcTlass |
mcTlass增加FP32/FP16/BF16 group gemm功能支持 |
|
在MXMACA平台上支持deepseek的flashMLA并开源至github |
||
PyTorch |
发布 PyTorch 2.6 |
|
Tools |
记录GPU变不可用的原因并提供sysfs接口 |
|
mx-smi sgpu 实现一次性创建需要的sGPU个数 |
||
mx-report新增lspci -vvxxxx信息收集 |
||
SMI增加nvml.h头文件中相关结构体和函数,方便编译通过 |
||
mxvs算力支持sGPU |
||
mx-exporter支持sgpu-wheel |
2.5. MXMACA-C500-Driver-2.31.0.6,MXMACA-C500-SDK-2.31.0.6,MXMACA-C500-Pytorch-2.31.0.4
模块 |
特性说明 |
|
|---|---|---|
MXMACA |
软件栈 |
从2.31.0版本开始,正式全面支持在线安装相关功能,详情请参考https://developer.metax-tech.com/softnova/index |
SDK安装路径版本号变更为3位 |
||
KMD/FW |
增加对ccx fw和ccx boot(VBIOS)的版本兼容性检测 |
|
UMD |
支持GPU拓扑感知 |
|
优化GraphLaunch耗时 |
||
direct dispatch模式下支持以下API: mcDeviceSetGraphMemAttribute mcDeviceGraphMemTr mcDeviceGetGraphMemAttribute |
||
默认开启kernel前L2 flush的优化 |
||
细化完善trap kernel精准定位方案 |
||
MCCL |
多机SDMA sendRecv并行方案开发 |
|
集群状态检测脚本开发/优化 |
||
添加RAS功能 |
||
Dragonfly8卡通信算法优化 |
||
开发分层算法,提升OAMC550 Switch Box拓扑16卡/64卡性能 |
||
Compiler |
OpenACC编译器新增对WRF项目工程中涵盖的语义特性支持 |
|
新增OpenACC编译器运行时依赖Python包列表显示的选项支持 |
||
用table lookup算法优化vLLM kDequantize性能 |
||
ACL |
FlashAttention |
在FlashAttention中添加headdim 512 |
flashAttn提供kernel selector插件以针对特定shape选择性能更好的kernel |
||
flashAttn提供kv cache int8反量化功能以支持decoder阶段提升性能 |
||
flashInfer升级版本到0.2.x版本以支持deepseekV3推理 |
||
用fast div方案优化flash attn2性能 |
||
通过B16寄存器分配提高flash attn2性能 |
||
新增w8a8 azp功能 |
||
mcBlasLT |
支持GEMM+Commincation API |
|
优化gemm+bias API的性能 |
||
mcBlas |
优化gemv性能 |
|
优化大模型推理(包括deepseek r1)的性能 |
||
mcDNN |
优化mcDNN FP32/TF32单向LSTM性能 |
|
mcFFT |
优化8192范围内素数size的性能,从30%提升到60% |
|
用metaxgpu slp方案优化triton-flash attention2 bwd的性能 |
||
TF32&Int8 GEMM性能有提升 |
||
优化deepseek mla triton算子性能 |
||
优化deepseek fused moe triton算子性能 |
||
优化PyTorch cat算子性能 |
||
Tools |
mcTracer |
mcTracer工具支持profiling区间可配置 |
mxvs工具打流支持switch地址遍历 |
2.6. MXMACA-C500-Driver-2.29.0.13,MXMACA-C500-SDK-2.29.0.19,MXMACA-C500-Pytorch-2.29.0.4
模块 |
特性说明 |
|
|---|---|---|
MXMACA |
软件栈 |
支持基于APT/YUM的MXMACA SDK和Driver在线安装与卸载的基本功能,以及PIP方式的Pytorch在线安装功能,详情请参考https://repos.metax-tech.com/gitea/repos/index/wiki/MACA.md |
Compiler |
Fortran OpenACC编译器中支持了Reduction分离特性 |
|
新增mlir-translate编译器组件工具,支持mlir文件到llvm ir文件的转换 |
||
PyTorch |
发布mcPytorch 2.4版本 |
|
mcAudio发布2.4版本,功能支持95% |
||
ACL |
mcTriton |
mcTriton发布3.0版本 |
改进Post-RA调度策略,消除了非必要snop,Triton的TN pipeline性能提升5% |
||
mcspconv |
发布mcspconv库初版 |
|
mcBLAS |
mcBLAS库优化了部分大模型推理场景下的性能 |
|
flashAttn |
flashAttn库优化了部分大模型推理场景下paged attention的性能 |
|
mcTlass |
mcTlass优化int8 TN GEMM在vllm w8a8应用场景下的性能 |
|
MCCL |
MCCL优化C500/C550 AllToAll通信,整体性能平均提升20% |
|
MCCL优化C500/C550低时延算法,小数据量通信时延平均降低30% |
||
MCCL优化C500X Switch跨机EP4/EP8通信性能,整体性能平均提升200% |
||
MCCL支持异构集群 |
||
UMD |
Direct Dispatch的command状态更新,提升部分场景的性能 |
|
github上选取有意义的第三方开源项目,通过率达到 3453/3838 = 90% |
||
AI |
MXMACA Graph的并行节点最大限度分散到不同硬件queue,提升部分场景的性能 |
|
升级flashAttn库版本到2.6.3,增加了softcap、small page size推理等功能的支持 |
||
Tools |
mcTracer/mcpti的tracing数据准确性提升,改进mcMemcpy在大size拷贝时耗时统计的精确性 |
|
mcTracer/mcpti增加后台非实时线程处理app线程的tracing数据,降低app线程进行tracing的overhead(在某多进程多卡场景的profiling时间从75s减少到15s) |
2.7. MXMACA-C500-Driver-2.27.0.11,MXMACA-C500-SDK-2.27.0.11,MXMACA-C500-Pytorch-2.27.0.8
模块 |
特性说明 |
|
|---|---|---|
MXMACA |
软件栈 |
支持天固Gen5/超聚变/单机Dragonfly 16卡服务器 |
mcTracer |
支持单机多进程多卡场景,支持Call Stack显示 |
|
Compiler |
支持OpenCL v1.2 Spec中的所有built-in function |
|
支持OpenCL编译器mxcc-ocl |
||
使能了OpenACC编译中的collapse子句 |
||
发布了MXMACA Clangd语言编程工具 |
||
在MI调度阶段引入了Igroup功能模块,为MMA相关的代码段引入了用户可配置的调度策略,提高了指令调度的效率 |
||
提升mcRTC兼容性,大幅降低用户对jitify的相关代码进行修改适配 |
||
SOMA兼容虚拟地址的管理行为,减少部分场景潜在的显存碎片化问题 |
||
优化了MI调度模块,使得Triton MMA的utilization从60%提升到73% |
||
优化了Uniform branch处理方法,提升了mcTlass GEMM i8性能5%~20% |
||
优化了pk_fma处理策略,提升vllm gptq kernel性能约20% |
||
优化了BF16 cvt和compute的处理,提升了BF16 hgemm_nt的性能约25%,达到FP16 hgemm_nt的85% |
||
提升了OpenACC的性能,使得VASP Benchmark的性能有提高 |
||
KMD |
VBIOS |
增加对RAVS电压补偿方案、光模块热插拔功能、SDMA对tracer timestamp的支持 |
完善CE对direct_dispatch模式的支持 |
||
UMD |
MCCL |
支持Dragonfly 32卡拓扑,支持博通/云合等网卡交换机 |
Graph |
提升Graph IB模式性能,并且默认开启Graph IB模式,提升AI推理场景性能 |
|
提升单卡部分size D2D memcpy性能(4MB-64MB提升约30%) |
||
提升单节点多卡环境DMA queue的吞吐量,大幅提升DMA queue满负荷使用场景的性能 |
||
VPU |
mxJPEG |
VPUD/VPUE支持stream操作,VPUD支持batch功能。 |
ACL |
mcBLAS |
mcBlasLt库支持了GEMM的out of place功能 |
mcBlas库修复了kernel selection工具在不同Python版本下的兼容问题 |
||
mcBlas库支持了deterministic mode |
||
BF16 GEMM性能表现提升至与FP16 GEMM一致水平 |
||
优化了group GEMM API在MOE模型训练场景下的性能 |
||
优化了BF16/FP16 GEMM在problem size非对齐场景下的性能 |
||
优化了BF16/FP16在new fused config 2M page size下的性能 |
||
mcDNN |
支持了BF16 fwd conv融合,LSTM新增支持dropout |
|
BF16 fwd conv性能表现提升至与FP16 fwd conv一致水平 |
||
mcTlass |
支持了BF16 group GEMM功能,和INT8 GEMM下ScaleBias类型融合的功能 |
|
FlashAttn |
增加DeepSeek v2的MLA功能支持,并优化了性能 |
|
优化了head dim为32奇数倍的推理算子性能 |
||
FlashInfer |
发布0.1.5完整功能版本,支持prefill、decoder和cascade等推理需求 |
|
mcFFT |
优化了127以内素数基的性能 |
|
优化了小size 2D和3D real transform算子性能 |
||
mcImage |
mcImage性能提升50%-10倍 |
|
mcMathLib |
15个常用接口性能提升10%以上 |
|
PyTorch |
mcPytorch增加了ProcessGroup的mpi后端支持 |
|
移除kernel中关于assert的使用,提升了相关kernel的性能 |
||
优化部分非连续输入输出场景下cat/reduce算子性能 |
2.8. MXMACA-C500-Driver-2.25.2.8,MXMACA-C500-SDK-2.25.2.9,MXMACA-C500-Pytorch-2.25.2.8
模块 |
特性说明 |
|
|---|---|---|
UMD |
Runtime API |
新增API mcLaunchKernelExC,通过扩展属性配置CooperativeGroup指定核函数的内存同步域,这对于跨设备的内存同步和异步执行非常有用。 |
mcpti |
activity质量增强 |
|
VPU |
优化VPUD 264 sps/pps |
|
AI |
大模型在OAM机型上的通信算子性能符合理论值 |
|
triton |
提升fp16 MMA on triton性能,峰值性能达到标成算力的65% |
|
优化冗余的跨基本块的fp16数据合并操作,提升10%的triton MMA场景性能 |
||
ACL |
Flash Attention |
优化了headdim96的前向和反向功能 |
优化了headdim256的decode功能 |
||
mcBlas |
针对大模型推理相关模型进行了性能提升 |
|
tools |
inspector |
发布集群环境检测工具inspector |
mcProfiler |
优化mcProfiler UX |
|
mx-report |
提供mx-report工具试用版 |
2.9. MXMACA-C500-Driver-2.25.0.3,MXMACA-C500-SDK-2.25.0.7,MXMACA-C500-Pytorch-2.25.0.0
模块 |
特性说明 |
|
|---|---|---|
MXMACA |
本版本旨在快速提供MXMACA软件栈在MOE(混合专家模型)技术上的最新支持成果,后续版本仍会持续优化 |
|
mcpti |
新增Graph API IB模式的tracer功能支持 |
|
mcBLAS |
增加了Group GEMM相关API的支持 |
|
针对大模型推理相关模型进行了性能提升 |
||
加强使用Graph API测试场景覆盖 |
||
Compiler |
使能OpenAcc P0特性和OpenCL基本特性 |
|
优化pkfma和FP16 cvt执行策略,提升vLLM关键Kernel GPTQ性能 |
||
优化冗余的跨基本块的FP16数据合并操作,提升triton MMA场景性能 |
||
加强Direct Dispatch的测试场景覆盖 |
||
加强显存使用复杂场景的测试场景覆盖 |
||
FlashAttention优化了headdim96的前向和反向功能、headdim256的decode性能 |
||
提升FP16 MMA on triton性能 |
2.10. MXMACA-C500-Driver-2.24.0.10,MXMACA-C500-SDK-2.24.0.12,MXMACA-C500-Pytorch-2.24.0.5
模块 |
特性说明 |
|
|---|---|---|
UMD |
提供DirectDispatch功能 |
|
加强了多进程支持的稳定性,并有小幅性能提升 |
||
MCCL |
支持易构集群 |
|
C500X |
Ring算法支持网卡和PCIe并行通信,分布算法性能优化,TP8带宽性能提升 |
|
ARM |
支持复用PCIe链路通信,单机多卡通信带宽性能提升 |
|
Graph |
API |
支持Memory Node基本功能 |
ACL |
mcTracer |
支持根据UMD memory tracing log单独生成trace文件,并可以通过mcTracer-Viewer打开并显示 |
mcDNN |
增加了FP16前向depthwise卷积融合功能 |
|
mcDNN/ mcBLAS |
增加外置kernel选择优化工具 |
|
Flash Attention |
增加MHA/GQA backward全部headdim的支持 |
|
增加对decoder attention和paged attention全部headdim的支持 |
||
支持更通用的attention mask |
||
Compiler |
增加global load/store builtin function with predicator |
|
ARM |
修复了一些ARM平台上的软件适配问题 |
2.11. MXMACA-C500-Driver-2.23.0.1014,MXMACA-C500-SDK-2.23.0.1018,MXMACA-C500-Pytorch-2.23.0.1011,MXMACA-C500-K8s-0.7.13
模块 |
特性说明 |
|
|---|---|---|
C500X |
MetaXLink |
支持隐式MetaXLink training |
MCCL |
支持C500X |
|
ACL |
mcDNN |
提升FP16 depth-wise卷积性能 |
mcBLAS |
提升大语言模型场景下的矩阵乘法性能 |
|
Flash Attention |
提升head dimension部分性能 |
|
PyTorch |
新增支持python 3.10 |
|
新增支持torch2.1 |
||
Compiler |
新增编译选项-mllvm -metaxgpu-lduB16=true |
|
Triton |
支持triton2.1 |
|
mcTracer |
支持根据热点API slice排序 |
|
Bug修复 |
修复了200+ reported bug,包括 5+ hot issue |
2.12. MXMACA-C500-2.22.0.9 amd64和MXMACA-C500-2.22.0.11 arm64
模块 |
特性说明 |
|
|---|---|---|
OS适配 |
本次发布新增OS BCLinux R8 U2,kernel 4.19.0-240.23.11.el8_2.bclinux.x86_64 |
|
支持飞腾5000C ARM系统,kernel 5.15.0-1.10.6.v2307.ky10h.aarch64 |
||
驱动 |
Warm Reset |
支持Warm Reset方式 |
ACL |
发布mcApex和mcXformer |
|
Bug修复 |
修复了100+ reported bug,包括 1 hot issue |
2.13. MXMACA-C500-2.20.2.19
模块 |
特性说明 |
|
|---|---|---|
OS适配 |
本次发布新增OS ALinux3,kernel 5.10.134-13.1.al8.x86_64 |
|
本次发布新增OS CTYun 23.01,kernel 5.10.0-136.12.0.86.ctl3.x86_64 |
||
本次发布新增OS x86_64 Kylin V10 SP2,kernel 5.10.0-136.12.0.86.ctl3.x86_64 |
||
本次发布新增OS KeyarchOS 5.8,kernel 4.19.91-27.4.19.kos5.x86_64 |
||
驱动 |
VPU |
新增支持多进程FFmpeg编解码 |
Bug修复 |
修复了200+ reported bug,包括 1 hot issue |
2.14. MXMACA-C500-2.19.2.23
模块 |
特性说明 |
|
|---|---|---|
Bug修复 |
修复了220+ reported bug,包括 19 hot issue |
2.15. MXMACA-C500-2.19.2.7
模块 |
特性说明 |
|
|---|---|---|
Bug修复 |
修复了160+ reported bug,包括 13 hot issue |
2.16. MXMACA-C500-2.19.0.12
模块 |
特性说明 |
|
|---|---|---|
Bug修复 |
修复了160+ reported bug,包括7 hot issue |
2.17. MXMACA-C500-2.18.0.4
模块 |
特性说明 |
|
|---|---|---|
Bug修复 |
修复了reported bug |
2.18. MXMACA-C500-2.17.3.11
模块 |
特性说明 |
|
|---|---|---|
驱动 |
内核态驱动 |
新增支持CC Linux 22.09 |
虚拟化 |
新增支持虚拟化相关功能 |
|
VPU |
新增支持264/265/jpeg编码,264/265/av1/avs2/jpeg解码,8k 30fps |
|
Bug修复 |
修复了57 reported bug,包括24 hot issue |
2.19. MXMACA-C500-2.16.1.11
模块 |
特性说明 |
|
|---|---|---|
驱动 |
内核态驱动 |
新增支持RedHat 9/CentOS 9和BC-Linux for Euler(21.10及以上) |
Bug修复 |
修复了120+ reported bug,包括10+ hot issue |
2.20. MXMACA-C500-2.15.0.7
模块 |
特性说明 |
|
|---|---|---|
驱动 |
固件 |
支持C500芯片上运行的基本固件功能 |
内核态驱动 |
支持C500芯片上运行的基本内核功能 |
|
用户态驱动 |
支持C500芯片上运行的基本用户态驱动功能 |
|
编译器 |
编译器 |
支持基本C500编译器功能 |
数学库 |
基本数学库 |
支持C500芯片上运行的基本数学库功能 |
Pytorch |
支持C500芯片上运行的Pytorch功能 |