2. 新增特性及变更

本章列出历次发布的新增特性及变更。

2.1. 配套MXMACA-C500-Driver-3.1.0.11,MXMACA-C500-SDK-3.1.0.14,MXMACA-C500-Pytorch-3.1.0.4

2.1.1. mxc500-vllm-3.1.0.7

模块

特性说明

vllm

发布社区版本0.10.0

新增GLM4.5模型

2.1.2. mxc500-modelzoo.llm.vllm-3.1.0.7

模块

特性说明

modelzoo.llm.vllm

发布社区版本0.10.0

新增GLM4.5模型

2.1.3. mxc500-modelzoo.llm.diffusers-3.1.0.5

模块

特性说明

modelzoo.llm.diffusers

新增支持SD3.5

2.1.4. mxc500-ms-swift-3.1.0.6

模块

特性说明

ms-swift

首次发布

2.1.5. mxc500-verl-3.1.0.5

模块

特性说明

verl

首次发布

2.1.6. mxc500-megatron-lm-3.1.0.7

模块

特性说明

megatron-lm

发布transformer engine 2.3 backend

2.1.7. mxc500-sglang-3.1.0.8

模块

特性说明

sglang

适配v0.4.8

支持Kimi-K2

性能优化

2.1.8. mxc500-modelzoo.llm.sglang-3.1.0.9

模块

特性说明

modelzoo.llm.sglang

首次发布

2.2. 配套MXMACA-C500-Driver-3.0.0.5,MXMACA-C500-SDK-3.0.0.8,MXMACA-C500-Pytorch-3.0.0.3

2.2.1. mxc500-modelzoo.cnn.training-3.0.0.5

模块

特性说明

modelzoo.cnn.training

Pytorch版本升级到2.4

2.2.2. mxc500-mmcv-3.0.0.5

模块

特性说明

mmcv

Pytorch版本升级到2.4

2.2.3. mxc500-megatron-lm-3.0.0.5

模块

特性说明

megatron-lm

开源版本升级

无模型改变

2.2.4. mxc500-colossalai-3.0.0.6

模块

特性说明

colossalai

开源版本升级

2.2.5. mxc500-vllm-3.0.0.5

模块

特性说明

vllm

版本升级为0.9.1

新增招行文心一言模型

Deepseek模型多机使用TP+DP

2.2.6. mxc500-modelzoo.llm.vllm-3.0.0.5

模块

特性说明

modelzoo.llm.vllm

新增internvl-2.5-26b、招行文心一言模型

benchmark_serving.py支持多模态模型

2.2.7. mxc500-deepspeed-3.0.0.5

模块

特性说明

deepspeed

开源版本升级

无模型改变

2.2.8. mxc500-modelzoo.cnn.inference-3.0.0.5

模块

特性说明

modelzoo.cnn.inference

增加客户模型

2.3. 配套MXMACA-C500-Driver-2.33.0.9,MXMACA-C500-SDK-2.33.0.12,MXMACA-C500-Pytorch-2.33.0.5

2.3.1. mxc500-deepspeed-2.33.0.11

模块

特性说明

deepspeed

更新llamafactory 0.9.2

增加了sequence paralle功能

增强代码安全性

2.3.2. mxc500-internlm-2.33.0.12

模块

特性说明

internlm

支持长序列训练

支持MoE模型训练

2.3.3. mxc500-modelzoo.cnn.training-2.33.0.11

模块

特性说明

modelzoo.cnn.training

最低兼容MXMACA2.27版本

2.3.4. mxc500-megatron-lm-2.33.0.11

模块

特性说明

megatron-lm

删除megatron-lm core_v0.6.0

新增megatron-lm core_v0.10.0

2.4. 配套MXMACA-C500-Driver-2.32.0.6,MXMACA-C500-SDK-2.32.0.6,MXMACA-C500-Pytorch-2.32.0.3

2.4.1. mxc500-megatron-lm-2.32.0.5

模块

特性说明

megatron-lm

计算通信并行支持sdma

attention offload 支持TE

2.4.2. mxc500-paddle-2.32.0.5

模块

特性说明

paddle

修复op paddle.eye

修复bug

2.4.3. mxc500-bitsandbytes-2.32.0.5

模块

特性说明

bitsandbytes

社区版本升级到0.45.2

2.4.4. mxc500-ray-2.32.0.7

模块

特性说明

Ray

首次发布,支持ray.dag

2.4.5. mxc500-vllm-2.32.0.11

模块

特性说明

vllm

切换版本至0.8.2

支持V1 engine, 默认export VLLM_USE_V1=0 使用V0 engine测试

2.4.6. mxc500-modelzoo.llm.vllm-2.32.0.11

模块

特性说明

modelzoo.llm.vllm

支持vllm 0.8.2

2.4.7. mxc500-modelzoo.llm.diffusers-2.32.0.6

模块

特性说明

modelzoo.llm.diffusers

需配套MXMACA-C500-SDK-2.32.0.7使用

如需获取二进制安装包,请联系沐曦技术支持工程师

2.4.8. mxc500-onnxruntime-2.32.0.6

模块

特性说明

onnxruntime

需配套MXMACA-C500-SDK-2.32.0.7使用

如需获取二进制安装包,请联系沐曦技术支持工程师

2.4.9. mxc500-modelzoo.cnn.inference-2.32.0.6

模块

特性说明

modelzoo.cnn.inference

需配套MXMACA-C500-SDK-2.32.0.7使用

如需获取二进制安装包,请联系沐曦技术支持工程师

2.4.10. mxc500-sglang-2.32.0.10

模块

特性说明

sglang

v0.4.3版本适配

支持DeepSeek-BF16模型及DeepSeek-R1-Qwen、DeepSeek-R1-Llama系列蒸馏模型

支持W8A8_INT8量化

2.5. 配套MXMACA-C500-SDK-2.31.0.6,MXMACA-C500-Driver-2.31.0.6,MXMACA-C500-Pytorch-2.31.0.4

2.5.1. mxc500-deepspeed-2.31.0.3

模块

特性说明

deepspeed

增加liger_kernel融合算子

Pytorch版本升级到2.4

2.5.2. mxc500-colossalai-2.31.0.4

模块

特性说明

colossalai

Colossal-AI从0.3.4升级到0.3.6

2.5.3. mxc500-megatron-lm-2.31.0.3

模块

特性说明

megatron-lm

auto search

冷热专家

DeepSeek系列基础结构,aux loss free

更新Readme和特性介绍

2.5.4. mxc500-triton-inference-server-2.31.0.3

模块

特性说明

triton-inference-server

Pytorch版本升级到2.4

2.6. 配套MXMACA-C500-Driver-2.29.0.13,MXMACA-C500-SDK-2.29.0.19,MXMACA-C500-Pytorch-2.29.0.4

2.6.1. mxc500-cv-cuda-2.29.0.6

模块

特性说明

cv-cuda

初版适配

2.6.2. mxc500-xtuner-2.29.0.7

模块

特性说明

xtuner

初版适配

2.6.3. mxc500-vllm-2.29.0.6

模块

特性说明

vllm

版本升级为0.6.6(仅适用py310)

支持GGUF

支持W8A8量化方式

支持分离式推理

2.6.4. mxc500-modelzoo.llm.vllm-2.29.0.8

模块

特性说明

modelzoo.llm.vllm

兼容0.6.6特性(仅适用py310)

新增支持模型

2.6.5. mxc500-modelzoo.llm.diffusers-2.29.0.6

模块

特性说明

modelzoo.llm.diffusers

支持Flux性能测试

2.6.6. mxc500-megatron-lm-2.29.0.7

模块

特性说明

megatron-lm

适配megatron-lm core0.8,新增模型,优化性能

2.6.7. mxc500-modelzoo.llm.transformers-2.29.0.7

模块

特性说明

modelzoo.llm.transformers

新增transformers框架功能/性能/精度测试模块

2.7. 配套MXMACA-C500-Driver-2.27.0.11,MXMACA-C500-SDK-2.27.0.11,MXMACA-C500-Pytorch-2.27.0.8

2.7.1. mxc500-vllm-2.27.0.9

模块

特性说明

vllm

切换0.6.2版本

优化gptq & awq性能

性能默认开启graph模式

flash attn依赖包调整为依赖flash_attn_vllm包,可在发布的vLLM安装包获取

支持num_schedule_steps

支持BF16

2.7.2. mxc500-modelzoo.llm.vllm-2.27.0.9

模块

特性说明

modelzoo.llm.vllm

优化gptq & awq性能

性能默认开启graph模式

flash attn依赖包调整为依赖flash_attn_vllm包,可在发布的vllm安装包获取

支持num_schedule_steps

支持BF16

2.7.3. mxc500-modelzoo.llm.diffusers-2.27.0.8

模块

特性说明

modelzoo.llm.diffusers

新增支持Flux

2.7.4. mxc500-deepspeed-2.27.0.10

模块

特性说明

deepspeed

发布15.1

2.7.5. mxc500-modelzoo.cnn.inference-2.27.0.10

模块

特性说明

modelzoo.cnn.inference

支持modelzoo3.0模型

2.7.6. mxc500-onnxruntime-2.27.0.8

模块

特性说明

onnxruntime

新增支持mha算子attn_mask_broadcast规则

修复fasterRcnn的NMS、topk算子问题

bert、字节模型优化

2.7.7. mxc500-modelzoo.cnn.training-2.27.0.7

模块

特性说明

modelzoo.cnn.training

mmcv升级到2.2

2.8. 配套MXMACA-C500-Driver-2.25.2.8,MXMACA-C500-SDK-2.25.2.9,MXMACA-C500-Pytorch-2.25.2.8

2.8.1. mxc500-ppl.llm.serving-2.25.2.10

模块

特性说明

ppl.llm.serving

新增Qwen1.5模型,Yi1.5模型

2.8.2. mxc500-modelzoo.llm.ppl-2.25.2.10

模块

特性说明

modelzoo.llm.ppl

新增Qwen1.5模型,Yi1.5模型

2.8.3. mxc500-vllm-2.25.2.12

模块

特性说明

vllm

优化gptq、awq功能

支持MXMACA graph

优化MOE模型性能

支持PP流水线并行

2.8.4. mxc500-modelzoo.llm.vllm-2.25.2.12

模块

特性说明

modelzoo.llm.vllm

支持MXMACA graph测试功能

2.8.5. mxc500-triton-inference-server-2.25.2.10

模块

特性说明

triton-inference-server

新增onnxruntime backend

2.8.6. mxc500-mmcv-2.25.2.10

模块

特性说明

mmcv

新增适配

2.8.7. mxc500-modelzoo.llm.diffusers-2.25.2.11

模块

特性说明

modelzoo.llm.diffuser

支持静态模型推理

2.8.8. mxc500-modelzoo.cnn.inference-2.25.2.12

模块

特性说明

modelzoo.cnn.inference

新增I3D/Speech-Transformer/yolov5s_tag5模型

2.8.9. mxc500-onnxruntime-2.25.2.11

模块

特性说明

onnxruntime

增加支持了若干模型

支持max_pool global_ave_poll reducemean 5d算子

进一步优化了conv、bridge算子性能,支持了conv 3d

支持了QuickGelu算子融合

优化了bert性能

2.8.10. mxc500-modelzoo.cnn.training-2.25.2.10

模块

特性说明

modelzoo.cnn.training

优化了部分模型配置参数

2.9. 配套MXMACA-C500-Driver-2.25.0.3,MXMACA-C500-SDK-2.25.0.7,MXMACA-C500-Pytorch-2.25.0.0

2.9.1. mxc500-ppl.llm.serving-2.25.0.5

模块

特性说明

ppl.llm.serving

修复了部分kernel地址越界问题

2.9.2. mxc500-modelzoo.llm.ppl-2.25.0.5

模块

特性说明

modelzoo.llm.ppl

修复了部分kernel地址越界问题

2.9.3. mxc500-vllm-2.25.0.6

模块

特性说明

vllm

优化了性能

解决部分多卡运行问题

2.9.4. mxc500-modelzoo.llm.vllm-2.25.0.6

模块

特性说明

modelzoo.llm.vllm

优化了性能

解决部分多卡运行问题

2.10. 配套MXMACA-C500-Driver-2.24.0.10,MXMACA-C500-SDK-2.24.0.12,MXMACA-C500-Pytorch-2.24.0.5

2.10.1. mxc500-megatron-lm-2.24.0.4

模块

特性说明

Megatron-LM

优化框架性能,新增chatglm3,qwen2,qwen1.5,baichuan2模型支持

2.10.2. mxc500-modelzoo.llm.ppl-2.24.0.4

模块

特性说明

modelzoo.llm.ppl

新增支持模型Baichun2-13B

2.10.3. mxc500-ppl.llm.serving-2.24.0.4

模块

特性说明

PPL-LLM

新增支持模型Baichun2-13B

2.10.4. mxc500-vllm-2.24.0.4

模块

特性说明

vLLM

版本适配切换到0.5.4

优化paged attn、fuse moe kernel实现

新增Llama3.1等模型适配

2.10.5. mxc500-modelzoo.llm.vllm-2.24.0.4

模块

特性说明

modelzoo.llm.vllm

新增兼容vllm 0.5.4脚本,新加若干个模型

提供 torch profile 方式

2.10.6. mxc500-alpaca-lora-2.24.0.4

模块

特性说明

alpaca-lora

支持alpaca-7b和alpaca-13b

2.10.7. mxc500-paddle-2.24.0.5

模块

特性说明

Paddle-maca

优化了部分算子性能

2.10.8. mxc500-internlm-2.24.0.4

模块

特性说明

internlm

增加对InternEvo的支持

mxc500-modelzoo.llm.diffusers-2.24.0.6

模块

特性说明

modelzoo.llm.diffusers

增加多卡运行代码

2.11. 配套MXMACA-C500-Driver-2.23.0.1014,MXMACA-C500-SDK-2.23.0.1018,MXMACA-C500-Pytorch-2.23.0.1011

2.11.1. mxc500-onnxruntime-2.23.0.3

模块

特性说明

Onnxruntime-maca

进一步优化了conv、resize、transpose、bridge等算子的性能

解决了部分模型无法运行的问题

2.11.2. mxc500-ppl.llm.serving-2.23.0.3

模块

特性说明

PPL-LLM

优化了部分算子性能

2.11.3. mxc500-modelzoo.llm.ppl-2.23.0.3

模块

特性说明

modelzoo.llm.ppl

提供了若干个ppl测试样例

2.11.4. mxc500-vllm-2.23.0.3

模块

特性说明

vLLM

bloom模型推理问题,修复qwen_moe和deepseek推理问题

优化paged attn

新增lora、multi-lora 支持和优化

新增gptq、awq功能支持,性能待优化

2.11.5. mxc500-modelzoo.llm.vllm-2.23.0.1

模块

特性说明

modelzoo.llm.vllm

提供了若干个vllm测试样例,测试dytpe改成float16

新增lora和gptq测试脚本

2.11.6. mxc500-internlm-2.23.0.1

模块

特性说明

internlm

添加了训练脚本和README文档

删除了不再起作用的环境变量

2.11.7. mxc500-modelzoo.llm.diffusers-2.23.0.1

模块

特性说明

modelzoo.llm.diffusers

提供了diffusers的onnx后端测试样例

新增Prati数据集测试方式

完善打印信息

2.11.8. mxc500-paddle-2.23.0.1

模块

特性说明

Paddle-maca

更新到2.6.0版本

2.11.9. mxc500-modelzoo.cnn.training-2.23.0.1

模块

特性说明

modelzoo.cnn.training

解决部分模型运行报错问题

2.12. 配套MXMACA-C500-2.22.0.9 amd64和MXMACA-C500-2.22.0.11 arm64

2.12.1. mxc500-onnxruntime-2.22.0.9.318/mxc500-onnxruntime-ft2000-2.22.0.11.159

模块

特性说明

Onnxruntime-maca

优化了部分算子的性能

2.12.2. mxc500-megatron-lm-2.22.0.9.306

模块

特性说明

Megatron-LM

优化框架性能,支持core0.6.0

2.12.3. mxc500-ppl.llm.serving-2.22.0.9.311/mxc500-ppl.llm.serving-ft2000-2.22.0.11.168

模块

特性说明

PPl-LLM

优化了部分算子性能

2.12.4. mxc500-modelzoo.llm.ppl-2.22.0.9.118

模块

特性说明

modelzoo.llm.ppl

提供了若干个ppl测试样例

2.12.5. mxc500-vllm-2.22.0.9.186

模块

特性说明

vLLM

优化gemm计算

修复长文本oom问题

2.12.6. mxc500-modelzoo.llm.vllm-2.22.0.9.122

模块

特性说明

modelzoo.llm.vllm

提供了若干个vLLM测试样例

2.12.7. mxc500-internlm-2.22.0.9.33

模块

特性说明

internlm

internlm大模型训练框架

2.12.8. mxc500-modelzoo.llm.diffusers-2.22.0.9.120

模块

特性说明

modelzoo.llm.diffusers

提供了diffusers的onnx后端测试样例

2.12.9. mxc500-modelzoo.llm.transformers-2.22.0.9.115

模块

特性说明

transformers

提供了transformers测试环境和测试代码

2.12.10. mxc500-modelzoo.cnn.training-2.22.0.9.61

模块

特性说明

modelzoo.cnn.training

提供了若干个cnn training测试样例

2.12.11. mxc500-modelzoo.cnn.inference-2.22.0.9.120

模块

特性说明

modelzoo.cnn.inference

提供了常见的CNN模型的ONNXRUNTIME推理测试样例

2.12.12. mxc500-bitsandbytes-2.22.0.9.150

模块

特性说明

bitsandbytes

支持了部分场景下bitsandbytes的API

2.13. 配套MXMACA-C500-2.20.2.19

2.13.1. mxc500-onnxruntime-2.20.2.18.238

模块

特性说明

Onnxruntime-maca

优化了部分算子性能

解决了部分模型无法运行的问题

2.13.2. mxc500-megatron-lm-2.20.2.2.141

模块

特性说明

Megatron-LM

新增对megatron-Core的支持

2.13.3. mxc500-ppl.llm.serving-2.20.2.18.236

模块

特性说明

PPl-LLM

新增支持了Qwen、Mixtral、Llama3模型

优化了部分模型性能

2.13.4. mxc500-colossalai-2.20.2.2.91

模块

特性说明

ColossalAI

首次发布,优化optimizer性能

2.13.5. mxc500-vllm-2.20.2.19.147

模块

特性说明

vLLM

首次发布,兼容官方0.4.0版本

存在以下局限性:

  • 当前暂不支持Lora,后续将完善支持

  • 支持GPTQ量化方式,暂不支持其他量化方式

  • 暂不支持enforce_eager=False方式,内部关闭

  • 暂不支持FP8类型的KV Cache

  • 当前仅包含Ubuntu 20系统版本,后续将完善支持其他系统

2.14. 配套MXMACA-C500-2.19.2.23

2.14.1. mxc500-onnxruntime-2.19.2.23.111

模块

特性说明

Onnxruntime-maca

优化部分模型计算性能

2.14.2. mxc500-ppl.llm.serving-2.19.2.23.111

模块

特性说明

PPL-LLM

优化部分模型计算性能

2.15. 配套MXMACA-C500-2.19.2.7

2.15.1. mxc500-onnxruntime-2.19.2.5.65

模块

特性说明

Onnxruntime-maca

新增profiling功能

优化部分模型计算性能

2.15.2. mxc500-ppl.llm.serving-2.19.2.7.66

模块

特性说明

PPL-LLM

优化部分模型计算性能

2.16. 配套MXMACA-C500-2.19.0.12

2.16.1. mxc500-onnxruntime-2.19.0.12.40

模块

特性说明

Onnxruntime-maca

优化部分模型计算性能

2.16.2. mxc500-ppl.llm.serving-2.19.0.12.43

模块

特性说明

PPL LLM

新增支持Llamav2,ChatGLM2,ChatGLM3模型

优化模型转换及服务化部署示例

2.17. 配套MXMACA-C500-2.18.0.4

无新增和变更特性,修复reported bug。

2.18. 配套MXMACA-C500-2.17.3.11

2.18.1. mxc500-onnxruntime-2.17.3-0

模块

特性说明

Onnxruntime-maca

优化部分模型计算性能

修复部分算子计算逻辑问题

2.18.2. mxc500-deepspeed-2.17.3.11.76

模块

特性说明

DeepSpeed

Alpha版本,支持大模型训练

2.18.3. mxc500-megatron-lm-2.17.3.11.35

模块

特性说明

Megatron-LM

Alpha版本,支持大模型训练

2.18.4. mxc500-paddle-2.17.3.9.111

模块

特性说明

Paddle-maca

Alpha版本,支持FP32精度下的单卡及多卡训练

2.18.5. mxc500-ppl.llm.serving-2.17.3.11.58

模块

特性说明

PPL LLM

Alpha版本,支持LLama v1,Baichuan,InternLM模型

2.19. MXC500-ONNXRUNTIME-2.16.1-3

模块

特性说明

Onnxruntime-maca

新增支持部分模型

优化部分算子性能

2.20. MXC500-ONNXRUNTIME-2.15.0-4

模块

特性说明

Onnxruntime-maca

支持C、C++和Python接口

支持多种模型数据类型,包括float32、float16、int8、uint8等

支持动态batch推理功能

支持多线程调用和多进程调用

支持单机多GPU卡

支持用户管理系统内存、锁页内存、显存

MacaConverter

支持Caffe、Tensorflow、Pytorch、PaddlePaddle、Darknet模型转为ONNX模型

支持ONNX简化

支持FP32模型转为FP16模型

支持子图提取、图优化

MacaQuantizer

支持多种量化算法

支持开启强制优化

支持量化损失阈值配置

支持自定义预处理

支持自动量化流程

支持Debug模式

MacaPrecision

支持MXC500与CPU精度对比

支持逐层精度对比

支持多种精度评估方法

支持量化模型精度分析