PDE 智算Release_2.27.0.X 发布公告

查看全部 · 发表于 2025-1-2 17:22:14

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由黄美玲于 2025-1-9 09:14 编辑

2.27.0.X已经正式发布并在软件中心 (metax-tech.com)上线，欢迎下载。

本次发布的软件包新增/优化/修复说明：
[ColossalAI]  无更新，跟随新的maca发布；
[DeepSpeed] 搭配0.12.3 or 0.15.1版本发布，具体待定；
[Megatron-LM]  更新Torch2.1；
[ONNXRuntime]
增加mha算子attn_mask broadcast规则支持；
修复fasterRcnn的NMS、topk算子问题；
增加bert、字节模型优化；
[PPL.LLM.Serving] 无更新，跟随新的maca发布；
[InternLM]  无更新，跟随新的maca发布；
[Modelzoo.CNN.Inference]  添加新模型支持，具体模型范围待明确；
[Modelzoo.CNN.Training]  无更新，跟随新的maca发布；
[Modelzoo.LLM.PPL]  无更新，跟随新的maca发布；
[Modelzoo.LLM.Transformers]  无更新，跟随新的maca发布；
[Modelzoo.LLM.Diffusers]  新增支持flux；
[Diffusers.Training]  无更新、跟随新的maca发布；
[Alpaca-LoRA]  无更新、跟随新的maca发布；
[TensorFlow2]
仅支持eager模式、混合精度；
修复qa报的混合训练bug；
[PaddlePaddle]  无更新、跟随新的maca发布；
[Bisandbytes]  适配版本0.44.0；
[MMCV]  无新增功能和改动，预升级官方版本，当前2.2；
[TritonInferenceServer]  无更新、跟随新的maca发布；PS：GUP Metrics功能还不支持；
[Text-generation-inference]  无更新、跟随新的maca发布；
[CV-CUDA]  无新增功能和改动，预升级官方版本，当前0.7.0；
[LMDeploy]  Alpha版本，支持常见模型；[vLLM]采用临时的flash attn包集成
切换0.6.2版本；
优化gptq&awq性能（gidx属性，正在fix）；
预计默认开启cuda-graph，脚本相比之前有变化；
依赖flash attn的whl包（需要vllm包里的flash attn whl包）；
num_schedule_steps支持；
[Modelzoo.LLM.vLLM]
vllm更新为0.6.2支持num_scheduler_steps；
batched测试增加warmup；
新增部分模型(awq/gptq...)；
cuda graph默认开启；

已知模块问题和限制说明
【Paddle-maca】
  1. 个别模型偶现训练报错；
  2. 个别模型存在loss为NaN及loss不收敛问题；
【Onnxruntime-maca】
  1. ARM推理部分模型缺少libpaddle依赖，推理之前export
  2. LD_PRELOAD=/opt/conda/lib/libgomp.so.1
  3. conformer的模型缺libsndfile，可手动安装
  4. 少数模型性能出现下降
  5. arm架构下多线程且输入内存类型为cpu、maca_pinned时，跨MetaxLink推理暂不支持。
【vLLM】
  1. 个别模型性能存在波动
  2. 部分单卡模型需设置MACA_VLLM_PG_OPT=1提升性能
  3. 个别模型bf16与fp16测试值存在小部分偏差
  4. 多卡如遇dmesg显存超出信息为正常输出
  5. 建议性能测试配置单独执行
  6. 个别量化模型测试有异常情况
【modelzoo.llm.ppl】
  baichuan2-13Btps在八卡环境上需要加临时环境变量，四卡环境正常；
【ColossalAI】
  如果出现OOM：
  1.在物理机上执行sudomodprobe-rmetax&&sudomodprobemetax xcore_page_size=9
  2.在运行命令前执行exportMALLOC_THRESHOLD=99
【BitsAndBytes】
  1. 个别大矩阵性能较低
  2. 部分矩阵性能不稳定
【Diffusers.training】
  在ky2309a-aarch64平台上，性能数据有下降；
【modelzoo.cnn.training】
  1. centernet_R18和Retinanet模型训练时，存在amp精度loss为NaN的情况；
  2. Pytorch训练多VF场景下偶发hang；
  3. Pytorch训练学习率策略，推荐使用--auto-scale-lr自适应学习率；
  4. GPU占用率低时受到其他硬件因素影响较大，在不同机器测试时易出现性能波动；
  5. 个别模型对CPU资源敏感易出现性能波动现象；
  6. ssd模型多卡训练偶发loss为NaN；
  7. Deeplabv3模型FP32精度单卡训练时，需要设置新的环境变量以避免loss为NaN；
  8. FP32精度训练，可以通过使能PYTORCH_ALLOW_CUDA_CUDNN_TF32,TORCH_ALLOW_TF32_CUBLAS_OVERRIDE环境变量提升性能；
  9. centernet模型FP32精度训练时，设置PYTORCH_ALLOW_CUDA_CUDNN_TF32，TORCH_ALLOW_TF32_CUBLAS_OVERRIDE环境变量时可能导致精度问题；
  10. 个别模型多卡对单卡性能提升的线性度不足;
  11. 个别模型在torch2.1和torch2.0版本性能存在差异
  12. N260环境特殊场景下可能存在性能下降
【TensorFlow2】
  1. keras个别模型训练精度不符合预期；
  2. keras训练性能偏低；
  3. facenet模型训练性能偏低；
  4. facenet模型在Arm环境中训练存在异常的情况；
  5. facenet模型训练存在偶发hang的情况；
【mmcv】
  1. 部分算子报AssertionError错误；
  2. container中FFmpeg报错缺少libxcb-shape.so.0；
【Deepspeed】
  1. 部分模型性能不达标
  2. Xtuner部分模型偶现dmesglibmccl.sosegfault
  3. Xtunerinternlm2-20b模型训练dmesg有“failedtocreateboondomainVRAM”Error
  4. XtunerQwen2-7B-Instruct和Qwen1.5-1.8B-Chat模型训练失败
  5. Xtuner部分模型训练存在性能较低情况