PDE 智算Release_2.25.2.X 发布公告

[复制链接]
53 0

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 黄美玲 于 2024-11-28 09:14 编辑

2.25.2.X已经正式发布并在软件中心 (metax-tech.com)上线,欢迎下载。


本次发布的软件包新增/优化/修复说明:
【Colossalai】更新操作及说明文档;
【Deepspeed】更新操作及说明文档;修正参数;
【Onnxruntime】新增支持若干模型;max_pool glabal_ave_pool reducemean 5d算子支持;进一步优化了conv、bridge算子性能,支持了conv 3d;支持了QuickGelu算子融合;Bert性能优化;
【Megatron-LM】增加QAdam;修正参数;
【vLLM】0.5.4版本支持;官方多模态能力支持;gptq、awq功能优化;支持cuda graph;优化了MOE模型性能;支持了PP流水线并行;
【Paddle-maca】无新增,跟随发布;
【Tensorflow2】仅支持Eager模式、混合精度;
【PPL-LLM】合入openppl 8月特性;修复部分kernel地址越界问题;
【internlm】更新操作及说明文档;
【modelzoo.llm.ppl】新增qwen1.5/yi1.5模型支持;更新说明文档;;
【modelzoo.cnn.inference】新增I3D、Speech-Transformer、yolov5s_tag5模型;
【modelzoo.llm.diffusers】支持静态模型推理;更新说明文档;
【modelzoo.llm.transformers】无新增,跟随发布;
【modelzoo.llm.vLLM】支持了cuda graph测试功能;更新说明文档;
【diffusers.training】更新说明文档;
【Alpaca-LoRA】无新增,跟随发布;
【MMCV】更新说明文档;
【TritonlnferenceServer】功能支持;
【text-generation-inference】功能支持;

已知模块问题和限制说明
【Paddle-maca】
  1. 个别模型偶现训练报错;
  2. 个别模型存在loss为NaN及loss不收敛问题;
【Onnxruntime-maca】
  个别模型推理中出现精度不符合预期,推理报错问题;
【vLLM】
  1. 个别模型性能测试不稳定;
  2. OpenAI测试如遇问题请参考官方issue:https://github.com/vllm-project/vllm/issues/7246
  3. 多卡如遇dmesg显存超出信息为正常输出;
【modelzoo.llm.ppl】
  baichuan2-13Btps在八卡环境上需要加临时环境变量,四卡环境正常;
【ColossalAI】
  如果出现OOM:
  1.在物理机上执行sudomodprobe-rmetax&&sudomodprobemetax xcore_page_size=9
  2.在运行命令前执行exportMALLOC_THRESHOLD=99
【BitsAndBytes】
  Int8xInt8toInt8个别大矩阵乘法运算会有异常;Int8xInt8toInt8性能较低;Matmult矩阵乘性能可能不稳定;
【Diffusers.training】
  在ky2309a-aarch64平台上,性能数据有下降;
【modelzoo.cnn.training】
1. centernet_R18和Retinanet模型训练时,存在amp精度loss为NaN的情况;
2. Pytorch训练多VF场景下偶发hang;
3. Pytorch训练学习率策略,推荐使用--auto-scale-lr自适应学习率;
4. GPU占用率低时受到其他硬件因素影响较大,在不同机器测试时易出现性能波动;
5. 个别模型对CPU资源敏感易出现性能波动现象;
6. ssd模型多卡训练偶发loss为NaN;
7. Deeplabv3模型FP32精度单卡训练时,需要设置新的环境变量以避免loss为NaN;
8. FP32精度训练,可以通过使能PYTORCH_ALLOW_CUDA_CUDNN_TF32,TORCH_ALLOW_TF32_CUBLAS_OVERRIDE环境变量提升性能;
9. centernet模型FP32精度训练时,设置PYTORCH_ALLOW_CUDA_CUDNN_TF32,TORCH_ALLOW_TF32_CUBLAS_OVERRIDE环境变量时可能导致精度问题;
【TensorFlow2】
1. keras个别模型训练精度不符合预期;
2. keras训练性能偏低;
3. facenet模型训练性能偏低;
4. facenet模型在Arm环境中训练存在异常的情况;
5. facenet模型训练存在偶发hang的情况;   
【mmcv】
1. 部分算子报AssertionError错误;
2. container中FFmpeg报错缺少libxcb-shape.so.0;











您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表