2. 新增特性及变更
本章列出历次发布的新增特性及变更。
2.1. 配套MXMACA-Driver-3.2.1.12,MXMACA-SDK-3.2.1.10,MXMACA-Pytorch-3.2.1.3
2.1.1. maca-vllm-3.2.1.7
模块 |
特性说明 |
|---|---|
vllm |
发布社区版本0.10.2 |
新增Qwen3-Next-80B-A3B-Instruct、 Qwen3-Next-80B-A3B-Instruct_w8a8模型 |
2.1.2. maca-modelzoo.llm.vllm-3.2.1.8
模块 |
特性说明 |
|---|---|
modelzoo.llm.vllm |
发布社区版本0.10.2 |
新增Qwen3-Next-80B-A3B-Instruct、 Qwen3-Next-80B-A3B-Instruct_w8a8模型 |
2.1.3. maca-sglang-3.2.1.8
模块 |
特性说明 |
|---|---|
sglang |
适配v0.5.1 |
支持Qwen3-80B-Next |
|
性能优化 |
2.1.4. maca-modelzoo.llm.sglang-3.2.1.8
模块 |
特性说明 |
|---|---|
modelzoo.llm.sglang |
支持Qwen3-80B-Next |
2.1.5. maca-ms-swift-3.2.1.6
模块 |
特性说明 |
|---|---|
ms-swift |
新增 DeepSeek-R1-Distill-Qwen-32B 模型 |
2.2. 配套MXMACA-C500-Driver-3.1.0.11,MXMACA-C500-SDK-3.1.0.14,MXMACA-C500-Pytorch-3.1.0.4
2.2.1. mxc500-modelzoo.llm.diffusers-3.1.0.5
模块 |
特性说明 |
|---|---|
modelzoo.llm.diffusers |
新增支持SD3.5 |
2.2.2. mxc500-ms-swift-3.1.0.6
模块 |
特性说明 |
|---|---|
ms-swift |
首次发布 |
2.2.3. mxc500-verl-3.1.0.5
模块 |
特性说明 |
|---|---|
verl |
首次发布 |
2.2.4. mxc500-megatron-lm-3.1.0.7
模块 |
特性说明 |
|---|---|
megatron-lm |
发布transformer engine 2.3 backend |
2.2.5. mxc500-sglang-3.1.0.8
模块 |
特性说明 |
|---|---|
sglang |
适配v0.4.8 |
支持Kimi-K2 |
|
性能优化 |
2.2.6. mxc500-modelzoo.llm.sglang-3.1.0.9
模块 |
特性说明 |
|---|---|
modelzoo.llm.sglang |
首次发布 |
2.3. 配套MXMACA-C500-Driver-3.0.0.5,MXMACA-C500-SDK-3.0.0.8,MXMACA-C500-Pytorch-3.0.0.3
2.3.1. mxc500-modelzoo.cnn.training-3.0.0.5
模块 |
特性说明 |
|---|---|
modelzoo.cnn.training |
Pytorch版本升级到2.4 |
2.3.2. mxc500-mmcv-3.0.0.5
模块 |
特性说明 |
|---|---|
mmcv |
Pytorch版本升级到2.4 |
2.3.3. mxc500-megatron-lm-3.0.0.5
模块 |
特性说明 |
|---|---|
megatron-lm |
开源版本升级 |
无模型改变 |
2.3.4. mxc500-colossalai-3.0.0.6
模块 |
特性说明 |
|---|---|
colossalai |
开源版本升级 |
2.3.5. mxc500-vllm-3.0.0.5
模块 |
特性说明 |
|---|---|
vllm |
版本升级为0.9.1 |
新增招行文心一言模型 |
|
Deepseek模型多机使用TP+DP |
2.3.6. mxc500-modelzoo.llm.vllm-3.0.0.5
模块 |
特性说明 |
|---|---|
modelzoo.llm.vllm |
新增internvl-2.5-26b、招行文心一言模型 |
benchmark_serving.py支持多模态模型 |
2.3.7. mxc500-deepspeed-3.0.0.5
模块 |
特性说明 |
|---|---|
deepspeed |
开源版本升级 |
无模型改变 |
2.3.8. mxc500-modelzoo.cnn.inference-3.0.0.5
模块 |
特性说明 |
|---|---|
modelzoo.cnn.inference |
增加客户模型 |
2.4. 配套MXMACA-C500-Driver-2.33.0.9,MXMACA-C500-SDK-2.33.0.12,MXMACA-C500-Pytorch-2.33.0.5
2.4.1. mxc500-deepspeed-2.33.0.11
模块 |
特性说明 |
|---|---|
deepspeed |
更新llamafactory 0.9.2 |
增加了sequence paralle功能 |
|
增强代码安全性 |
2.4.2. mxc500-internlm-2.33.0.12
模块 |
特性说明 |
|---|---|
internlm |
支持长序列训练 |
支持MoE模型训练 |
2.4.3. mxc500-modelzoo.cnn.training-2.33.0.11
模块 |
特性说明 |
|---|---|
modelzoo.cnn.training |
最低兼容MXMACA2.27版本 |
2.4.4. mxc500-megatron-lm-2.33.0.11
模块 |
特性说明 |
|---|---|
megatron-lm |
删除megatron-lm core_v0.6.0 |
新增megatron-lm core_v0.10.0 |
2.5. 配套MXMACA-C500-Driver-2.32.0.6,MXMACA-C500-SDK-2.32.0.6,MXMACA-C500-Pytorch-2.32.0.3
2.5.1. mxc500-megatron-lm-2.32.0.5
模块 |
特性说明 |
|---|---|
megatron-lm |
计算通信并行支持sdma |
attention offload 支持TE |
2.5.2. mxc500-paddle-2.32.0.5
模块 |
特性说明 |
|---|---|
paddle |
修复op paddle.eye |
修复bug |
2.5.3. mxc500-bitsandbytes-2.32.0.5
模块 |
特性说明 |
|---|---|
bitsandbytes |
社区版本升级到0.45.2 |
2.5.4. mxc500-ray-2.32.0.7
模块 |
特性说明 |
|---|---|
Ray |
首次发布,支持ray.dag |
2.5.5. mxc500-vllm-2.32.0.11
模块 |
特性说明 |
|---|---|
vllm |
切换版本至0.8.2 |
支持V1 engine, 默认export VLLM_USE_V1=0 使用V0 engine测试 |
2.5.6. mxc500-modelzoo.llm.vllm-2.32.0.11
模块 |
特性说明 |
|---|---|
modelzoo.llm.vllm |
支持vllm 0.8.2 |
2.5.7. mxc500-modelzoo.llm.diffusers-2.32.0.6
模块 |
特性说明 |
|---|---|
modelzoo.llm.diffusers |
需配套MXMACA-C500-SDK-2.32.0.7使用 |
如需获取二进制安装包,请联系沐曦技术支持工程师 |
2.5.8. mxc500-onnxruntime-2.32.0.6
模块 |
特性说明 |
|---|---|
onnxruntime |
需配套MXMACA-C500-SDK-2.32.0.7使用 |
如需获取二进制安装包,请联系沐曦技术支持工程师 |
2.5.9. mxc500-modelzoo.cnn.inference-2.32.0.6
模块 |
特性说明 |
|---|---|
modelzoo.cnn.inference |
需配套MXMACA-C500-SDK-2.32.0.7使用 |
如需获取二进制安装包,请联系沐曦技术支持工程师 |
2.5.10. mxc500-sglang-2.32.0.10
模块 |
特性说明 |
|---|---|
sglang |
v0.4.3版本适配 |
支持DeepSeek-BF16模型及DeepSeek-R1-Qwen、DeepSeek-R1-Llama系列蒸馏模型 |
|
支持W8A8_INT8量化 |
2.6. 配套MXMACA-C500-SDK-2.31.0.6,MXMACA-C500-Driver-2.31.0.6,MXMACA-C500-Pytorch-2.31.0.4
2.6.1. mxc500-deepspeed-2.31.0.3
模块 |
特性说明 |
|---|---|
deepspeed |
增加liger_kernel融合算子 |
Pytorch版本升级到2.4 |
2.6.2. mxc500-colossalai-2.31.0.4
模块 |
特性说明 |
|---|---|
colossalai |
Colossal-AI从0.3.4升级到0.3.6 |
2.6.3. mxc500-megatron-lm-2.31.0.3
模块 |
特性说明 |
|---|---|
megatron-lm |
auto search |
冷热专家 |
|
DeepSeek系列基础结构,aux loss free |
|
更新Readme和特性介绍 |
2.6.4. mxc500-triton-inference-server-2.31.0.3
模块 |
特性说明 |
|---|---|
triton-inference-server |
Pytorch版本升级到2.4 |
2.7. 配套MXMACA-C500-Driver-2.29.0.13,MXMACA-C500-SDK-2.29.0.19,MXMACA-C500-Pytorch-2.29.0.4
2.7.1. mxc500-cv-cuda-2.29.0.6
模块 |
特性说明 |
|---|---|
cv-cuda |
初版适配 |
2.7.2. mxc500-xtuner-2.29.0.7
模块 |
特性说明 |
|---|---|
xtuner |
初版适配 |
2.7.3. mxc500-vllm-2.29.0.6
模块 |
特性说明 |
|---|---|
vllm |
版本升级为0.6.6(仅适用py310) |
支持GGUF |
|
支持W8A8量化方式 |
|
支持分离式推理 |
2.7.4. mxc500-modelzoo.llm.vllm-2.29.0.8
模块 |
特性说明 |
|---|---|
modelzoo.llm.vllm |
兼容0.6.6特性(仅适用py310) |
新增支持模型 |
2.7.5. mxc500-modelzoo.llm.diffusers-2.29.0.6
模块 |
特性说明 |
|---|---|
modelzoo.llm.diffusers |
支持Flux性能测试 |
2.7.6. mxc500-megatron-lm-2.29.0.7
模块 |
特性说明 |
|---|---|
megatron-lm |
适配megatron-lm core0.8,新增模型,优化性能 |
2.7.7. mxc500-modelzoo.llm.transformers-2.29.0.7
模块 |
特性说明 |
|---|---|
modelzoo.llm.transformers |
新增transformers框架功能/性能/精度测试模块 |
2.8. 配套MXMACA-C500-Driver-2.27.0.11,MXMACA-C500-SDK-2.27.0.11,MXMACA-C500-Pytorch-2.27.0.8
2.8.1. mxc500-vllm-2.27.0.9
模块 |
特性说明 |
|---|---|
vllm |
切换0.6.2版本 |
优化gptq & awq性能 |
|
性能默认开启graph模式 |
|
flash attn依赖包调整为依赖flash_attn_vllm包,可在发布的vLLM安装包获取 |
|
支持num_schedule_steps |
|
支持BF16 |
2.8.2. mxc500-modelzoo.llm.vllm-2.27.0.9
模块 |
特性说明 |
|---|---|
modelzoo.llm.vllm |
优化gptq & awq性能 |
性能默认开启graph模式 |
|
flash attn依赖包调整为依赖flash_attn_vllm包,可在发布的vllm安装包获取 |
|
支持num_schedule_steps |
|
支持BF16 |
2.8.3. mxc500-modelzoo.llm.diffusers-2.27.0.8
模块 |
特性说明 |
|---|---|
modelzoo.llm.diffusers |
新增支持Flux |
2.8.4. mxc500-deepspeed-2.27.0.10
模块 |
特性说明 |
|---|---|
deepspeed |
发布15.1 |
2.8.5. mxc500-modelzoo.cnn.inference-2.27.0.10
模块 |
特性说明 |
|---|---|
modelzoo.cnn.inference |
支持modelzoo3.0模型 |
2.8.6. mxc500-onnxruntime-2.27.0.8
模块 |
特性说明 |
|---|---|
onnxruntime |
新增支持mha算子attn_mask_broadcast规则 |
修复fasterRcnn的NMS、topk算子问题 |
|
bert、字节模型优化 |
2.8.7. mxc500-modelzoo.cnn.training-2.27.0.7
模块 |
特性说明 |
|---|---|
modelzoo.cnn.training |
mmcv升级到2.2 |
2.9. 配套MXMACA-C500-Driver-2.25.2.8,MXMACA-C500-SDK-2.25.2.9,MXMACA-C500-Pytorch-2.25.2.8
2.9.1. mxc500-ppl.llm.serving-2.25.2.10
模块 |
特性说明 |
|---|---|
ppl.llm.serving |
新增Qwen1.5模型,Yi1.5模型 |
2.9.2. mxc500-modelzoo.llm.ppl-2.25.2.10
模块 |
特性说明 |
|---|---|
modelzoo.llm.ppl |
新增Qwen1.5模型,Yi1.5模型 |
2.9.3. mxc500-vllm-2.25.2.12
模块 |
特性说明 |
|---|---|
vllm |
优化gptq、awq功能 |
支持MXMACA graph |
|
优化MOE模型性能 |
|
支持PP流水线并行 |
2.9.4. mxc500-modelzoo.llm.vllm-2.25.2.12
模块 |
特性说明 |
|---|---|
modelzoo.llm.vllm |
支持MXMACA graph测试功能 |
2.9.5. mxc500-triton-inference-server-2.25.2.10
模块 |
特性说明 |
|---|---|
triton-inference-server |
新增onnxruntime backend |
2.9.6. mxc500-mmcv-2.25.2.10
模块 |
特性说明 |
|---|---|
mmcv |
新增适配 |
2.9.7. mxc500-modelzoo.llm.diffusers-2.25.2.11
模块 |
特性说明 |
|---|---|
modelzoo.llm.diffuser |
支持静态模型推理 |
2.9.8. mxc500-modelzoo.cnn.inference-2.25.2.12
模块 |
特性说明 |
|---|---|
modelzoo.cnn.inference |
新增I3D/Speech-Transformer/yolov5s_tag5模型 |
2.9.9. mxc500-onnxruntime-2.25.2.11
模块 |
特性说明 |
|---|---|
onnxruntime |
增加支持了若干模型 |
支持max_pool global_ave_poll reducemean 5d算子 |
|
进一步优化了conv、bridge算子性能,支持了conv 3d |
|
支持了QuickGelu算子融合 |
|
优化了bert性能 |
2.9.10. mxc500-modelzoo.cnn.training-2.25.2.10
模块 |
特性说明 |
|---|---|
modelzoo.cnn.training |
优化了部分模型配置参数 |
2.10. 配套MXMACA-C500-Driver-2.25.0.3,MXMACA-C500-SDK-2.25.0.7,MXMACA-C500-Pytorch-2.25.0.0
2.10.1. mxc500-ppl.llm.serving-2.25.0.5
模块 |
特性说明 |
|---|---|
ppl.llm.serving |
修复了部分kernel地址越界问题 |
2.10.2. mxc500-modelzoo.llm.ppl-2.25.0.5
模块 |
特性说明 |
|---|---|
modelzoo.llm.ppl |
修复了部分kernel地址越界问题 |
2.10.3. mxc500-vllm-2.25.0.6
模块 |
特性说明 |
|---|---|
vllm |
优化了性能 |
解决部分多卡运行问题 |
2.10.4. mxc500-modelzoo.llm.vllm-2.25.0.6
模块 |
特性说明 |
|---|---|
modelzoo.llm.vllm |
优化了性能 |
解决部分多卡运行问题 |
2.11. 配套MXMACA-C500-Driver-2.24.0.10,MXMACA-C500-SDK-2.24.0.12,MXMACA-C500-Pytorch-2.24.0.5
2.11.1. mxc500-megatron-lm-2.24.0.4
模块 |
特性说明 |
|---|---|
Megatron-LM |
优化框架性能,新增chatglm3,qwen2,qwen1.5,baichuan2模型支持 |
2.11.2. mxc500-modelzoo.llm.ppl-2.24.0.4
模块 |
特性说明 |
|---|---|
modelzoo.llm.ppl |
新增支持模型Baichun2-13B |
2.11.3. mxc500-ppl.llm.serving-2.24.0.4
模块 |
特性说明 |
|---|---|
PPL-LLM |
新增支持模型Baichun2-13B |
2.11.4. mxc500-vllm-2.24.0.4
模块 |
特性说明 |
|---|---|
vLLM |
版本适配切换到0.5.4 |
优化paged attn、fuse moe kernel实现 |
|
新增Llama3.1等模型适配 |
2.11.5. mxc500-modelzoo.llm.vllm-2.24.0.4
模块 |
特性说明 |
|---|---|
modelzoo.llm.vllm |
新增兼容vllm 0.5.4脚本,新加若干个模型 |
提供 torch profile 方式 |
2.11.6. mxc500-alpaca-lora-2.24.0.4
模块 |
特性说明 |
|---|---|
alpaca-lora |
支持alpaca-7b和alpaca-13b |
2.11.7. mxc500-paddle-2.24.0.5
模块 |
特性说明 |
|---|---|
Paddle-maca |
优化了部分算子性能 |
2.11.8. mxc500-internlm-2.24.0.4
模块 |
特性说明 |
|---|---|
internlm |
增加对InternEvo的支持 |
2.11.9. mxc500-modelzoo.llm.diffusers-2.24.0.6
模块 |
特性说明 |
|---|---|
modelzoo.llm.diffusers |
增加多卡运行代码 |
2.12. 配套MXMACA-C500-Driver-2.23.0.1014,MXMACA-C500-SDK-2.23.0.1018,MXMACA-C500-Pytorch-2.23.0.1011
2.12.1. mxc500-onnxruntime-2.23.0.3
模块 |
特性说明 |
|---|---|
Onnxruntime-maca |
进一步优化了conv、resize、transpose、bridge等算子的性能 |
解决了部分模型无法运行的问题 |
2.12.2. mxc500-ppl.llm.serving-2.23.0.3
模块 |
特性说明 |
|---|---|
PPL-LLM |
优化了部分算子性能 |
2.12.3. mxc500-modelzoo.llm.ppl-2.23.0.3
模块 |
特性说明 |
|---|---|
modelzoo.llm.ppl |
提供了若干个ppl测试样例 |
2.12.4. mxc500-vllm-2.23.0.3
模块 |
特性说明 |
|---|---|
vLLM |
bloom模型推理问题,修复qwen_moe和deepseek推理问题 |
优化paged attn |
|
新增lora、multi-lora 支持和优化 |
|
新增gptq、awq功能支持,性能待优化 |
2.12.5. mxc500-modelzoo.llm.vllm-2.23.0.1
模块 |
特性说明 |
|---|---|
modelzoo.llm.vllm |
提供了若干个vllm测试样例,测试dytpe改成float16 |
新增lora和gptq测试脚本 |
2.12.6. mxc500-internlm-2.23.0.1
模块 |
特性说明 |
|---|---|
internlm |
添加了训练脚本和README文档 |
删除了不再起作用的环境变量 |
2.12.7. mxc500-modelzoo.llm.diffusers-2.23.0.1
模块 |
特性说明 |
|---|---|
modelzoo.llm.diffusers |
提供了diffusers的onnx后端测试样例 |
新增Prati数据集测试方式 |
|
完善打印信息 |
2.12.8. mxc500-paddle-2.23.0.1
模块 |
特性说明 |
|---|---|
Paddle-maca |
更新到2.6.0版本 |
2.12.9. mxc500-modelzoo.cnn.training-2.23.0.1
模块 |
特性说明 |
|---|---|
modelzoo.cnn.training |
解决部分模型运行报错问题 |
2.13. 配套MXMACA-C500-2.22.0.9 amd64和MXMACA-C500-2.22.0.11 arm64
2.13.1. mxc500-onnxruntime-2.22.0.9.318/mxc500-onnxruntime-ft2000-2.22.0.11.159
模块 |
特性说明 |
|---|---|
Onnxruntime-maca |
优化了部分算子的性能 |
2.13.2. mxc500-megatron-lm-2.22.0.9.306
模块 |
特性说明 |
|---|---|
Megatron-LM |
优化框架性能,支持core0.6.0 |
2.13.3. mxc500-ppl.llm.serving-2.22.0.9.311/mxc500-ppl.llm.serving-ft2000-2.22.0.11.168
模块 |
特性说明 |
|---|---|
PPl-LLM |
优化了部分算子性能 |
2.13.4. mxc500-modelzoo.llm.ppl-2.22.0.9.118
模块 |
特性说明 |
|---|---|
modelzoo.llm.ppl |
提供了若干个ppl测试样例 |
2.13.5. mxc500-vllm-2.22.0.9.186
模块 |
特性说明 |
|---|---|
vLLM |
优化gemm计算 |
修复长文本oom问题 |
2.13.6. mxc500-modelzoo.llm.vllm-2.22.0.9.122
模块 |
特性说明 |
|---|---|
modelzoo.llm.vllm |
提供了若干个vLLM测试样例 |
2.13.7. mxc500-internlm-2.22.0.9.33
模块 |
特性说明 |
|---|---|
internlm |
internlm大模型训练框架 |
2.13.8. mxc500-modelzoo.llm.diffusers-2.22.0.9.120
模块 |
特性说明 |
|---|---|
modelzoo.llm.diffusers |
提供了diffusers的onnx后端测试样例 |
2.13.9. mxc500-modelzoo.llm.transformers-2.22.0.9.115
模块 |
特性说明 |
|---|---|
transformers |
提供了transformers测试环境和测试代码 |
2.13.10. mxc500-modelzoo.cnn.training-2.22.0.9.61
模块 |
特性说明 |
|---|---|
modelzoo.cnn.training |
提供了若干个cnn training测试样例 |
2.13.11. mxc500-modelzoo.cnn.inference-2.22.0.9.120
模块 |
特性说明 |
|---|---|
modelzoo.cnn.inference |
提供了常见的CNN模型的ONNXRUNTIME推理测试样例 |
2.13.12. mxc500-bitsandbytes-2.22.0.9.150
模块 |
特性说明 |
|---|---|
bitsandbytes |
支持了部分场景下bitsandbytes的API |
2.14. 配套MXMACA-C500-2.20.2.19
2.14.1. mxc500-onnxruntime-2.20.2.18.238
模块 |
特性说明 |
|---|---|
Onnxruntime-maca |
优化了部分算子性能 |
解决了部分模型无法运行的问题 |
2.14.2. mxc500-megatron-lm-2.20.2.2.141
模块 |
特性说明 |
|---|---|
Megatron-LM |
新增对megatron-Core的支持 |
2.14.3. mxc500-ppl.llm.serving-2.20.2.18.236
模块 |
特性说明 |
|---|---|
PPl-LLM |
新增支持了Qwen、Mixtral、Llama3模型 |
优化了部分模型性能 |
2.14.4. mxc500-colossalai-2.20.2.2.91
模块 |
特性说明 |
|---|---|
ColossalAI |
首次发布,优化optimizer性能 |
2.14.5. mxc500-vllm-2.20.2.19.147
模块 |
特性说明 |
|---|---|
vLLM |
首次发布,兼容官方0.4.0版本 |
存在以下局限性:
|
2.15. 配套MXMACA-C500-2.19.2.23
2.15.1. mxc500-onnxruntime-2.19.2.23.111
模块 |
特性说明 |
|---|---|
Onnxruntime-maca |
优化部分模型计算性能 |
2.15.2. mxc500-ppl.llm.serving-2.19.2.23.111
模块 |
特性说明 |
|---|---|
PPL-LLM |
优化部分模型计算性能 |
2.16. 配套MXMACA-C500-2.19.2.7
2.16.1. mxc500-onnxruntime-2.19.2.5.65
模块 |
特性说明 |
|---|---|
Onnxruntime-maca |
新增profiling功能 |
优化部分模型计算性能 |
2.16.2. mxc500-ppl.llm.serving-2.19.2.7.66
模块 |
特性说明 |
|---|---|
PPL-LLM |
优化部分模型计算性能 |
2.17. 配套MXMACA-C500-2.19.0.12
2.17.1. mxc500-onnxruntime-2.19.0.12.40
模块 |
特性说明 |
|---|---|
Onnxruntime-maca |
优化部分模型计算性能 |
2.17.2. mxc500-ppl.llm.serving-2.19.0.12.43
模块 |
特性说明 |
|---|---|
PPL LLM |
新增支持Llamav2,ChatGLM2,ChatGLM3模型 |
优化模型转换及服务化部署示例 |
2.18. 配套MXMACA-C500-2.18.0.4
无新增和变更特性,修复reported bug。
2.19. 配套MXMACA-C500-2.17.3.11
2.19.1. mxc500-onnxruntime-2.17.3-0
模块 |
特性说明 |
|---|---|
Onnxruntime-maca |
优化部分模型计算性能 |
修复部分算子计算逻辑问题 |
2.19.2. mxc500-deepspeed-2.17.3.11.76
模块 |
特性说明 |
|---|---|
DeepSpeed |
Alpha版本,支持大模型训练 |
2.19.3. mxc500-megatron-lm-2.17.3.11.35
模块 |
特性说明 |
|---|---|
Megatron-LM |
Alpha版本,支持大模型训练 |
2.19.4. mxc500-paddle-2.17.3.9.111
模块 |
特性说明 |
|---|---|
Paddle-maca |
Alpha版本,支持FP32精度下的单卡及多卡训练 |
2.19.5. mxc500-ppl.llm.serving-2.17.3.11.58
模块 |
特性说明 |
|---|---|
PPL LLM |
Alpha版本,支持LLama v1,Baichuan,InternLM模型 |
2.20. MXC500-ONNXRUNTIME-2.16.1-3
模块 |
特性说明 |
|---|---|
Onnxruntime-maca |
新增支持部分模型 |
优化部分算子性能 |
2.21. MXC500-ONNXRUNTIME-2.15.0-4
模块 |
特性说明 |
|---|---|
Onnxruntime-maca |
支持C、C++和Python接口 |
支持多种模型数据类型,包括float32、float16、int8、uint8等 |
|
支持动态batch推理功能 |
|
支持多线程调用和多进程调用 |
|
支持单机多GPU卡 |
|
支持用户管理系统内存、锁页内存、显存 |
|
MacaConverter |
支持Caffe、Tensorflow、Pytorch、PaddlePaddle、Darknet模型转为ONNX模型 |
支持ONNX简化 |
|
支持FP32模型转为FP16模型 |
|
支持子图提取、图优化 |
|
MacaQuantizer |
支持多种量化算法 |
支持开启强制优化 |
|
支持量化损失阈值配置 |
|
支持自定义预处理 |
|
支持自动量化流程 |
|
支持Debug模式 |
|
MacaPrecision |
支持MXC500与CPU精度对比 |
支持逐层精度对比 |
|
支持多种精度评估方法 |
|
支持量化模型精度分析 |