PDE 智算Release_2.25.2.X 发布公告

查看全部 · 发表于 2024-11-28 08:46:42

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由黄美玲于 2024-11-28 09:14 编辑

2.25.2.X已经正式发布并在软件中心 (metax-tech.com)上线，欢迎下载。

本次发布的软件包新增/优化/修复说明：
【Colossalai】更新操作及说明文档；
【Deepspeed】更新操作及说明文档；修正参数；
【Onnxruntime】新增支持若干模型；max_pool glabal_ave_pool reducemean 5d算子支持；进一步优化了conv、bridge算子性能，支持了conv 3d；支持了QuickGelu算子融合；Bert性能优化；
【Megatron-LM】增加QAdam；修正参数；
【vLLM】0.5.4版本支持；官方多模态能力支持；gptq、awq功能优化；支持cuda graph；优化了MOE模型性能；支持了PP流水线并行；
【Paddle-maca】无新增，跟随发布；
【Tensorflow2】仅支持Eager模式、混合精度；
【PPL-LLM】合入openppl 8月特性；修复部分kernel地址越界问题；
【internlm】更新操作及说明文档；
【modelzoo.llm.ppl】新增qwen1.5/yi1.5模型支持；更新说明文档；；
【modelzoo.cnn.inference】新增I3D、Speech-Transformer、yolov5s_tag5模型；
【modelzoo.llm.diffusers】支持静态模型推理；更新说明文档；
【modelzoo.llm.transformers】无新增，跟随发布；
【modelzoo.llm.vLLM】支持了cuda graph测试功能；更新说明文档；
【diffusers.training】更新说明文档；
【Alpaca-LoRA】无新增，跟随发布；
【MMCV】更新说明文档；
【TritonlnferenceServer】功能支持；
【text-generation-inference】功能支持；

已知模块问题和限制说明
【Paddle-maca】
  1. 个别模型偶现训练报错；
  2. 个别模型存在loss为NaN及loss不收敛问题；
【Onnxruntime-maca】
  个别模型推理中出现精度不符合预期，推理报错问题；
【vLLM】
  1. 个别模型性能测试不稳定；
  2. OpenAI测试如遇问题请参考官方issue:https://github.com/vllm-project/vllm/issues/7246；
  3. 多卡如遇dmesg显存超出信息为正常输出；
【modelzoo.llm.ppl】
  baichuan2-13Btps在八卡环境上需要加临时环境变量，四卡环境正常；
【ColossalAI】
  如果出现OOM：
  1.在物理机上执行sudomodprobe-rmetax&&sudomodprobemetax xcore_page_size=9
  2.在运行命令前执行exportMALLOC_THRESHOLD=99
【BitsAndBytes】
  Int8xInt8toInt8个别大矩阵乘法运算会有异常；Int8xInt8toInt8性能较低；Matmult矩阵乘性能可能不稳定；
【Diffusers.training】
  在ky2309a-aarch64平台上，性能数据有下降；
【modelzoo.cnn.training】
1. centernet_R18和Retinanet模型训练时，存在amp精度loss为NaN的情况；
2. Pytorch训练多VF场景下偶发hang；
3. Pytorch训练学习率策略，推荐使用--auto-scale-lr自适应学习率；
4. GPU占用率低时受到其他硬件因素影响较大，在不同机器测试时易出现性能波动；
5. 个别模型对CPU资源敏感易出现性能波动现象；
6. ssd模型多卡训练偶发loss为NaN；
7. Deeplabv3模型FP32精度单卡训练时，需要设置新的环境变量以避免loss为NaN；
8. FP32精度训练，可以通过使能PYTORCH_ALLOW_CUDA_CUDNN_TF32,TORCH_ALLOW_TF32_CUBLAS_OVERRIDE环境变量提升性能；
9. centernet模型FP32精度训练时，设置PYTORCH_ALLOW_CUDA_CUDNN_TF32，TORCH_ALLOW_TF32_CUBLAS_OVERRIDE环境变量时可能导致精度问题；
【TensorFlow2】
1. keras个别模型训练精度不符合预期；
2. keras训练性能偏低；
3. facenet模型训练性能偏低；
4. facenet模型在Arm环境中训练存在异常的情况；
5. facenet模型训练存在偶发hang的情况；
【mmcv】
1. 部分算子报AssertionError错误；
2. container中FFmpeg报错缺少libxcb-shape.so.0；