马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 黄美玲 于 2024-9-11 11:23 编辑
2.24.0.X.X已经正式发布并在软件中心 (metax-tech.com)上线,欢迎下载。
本次发布的软件包新增/优化/修复说明:
【PPL-LLM】新增支持模型Baichun2-13B;
【Colossalai】解决Protein3.0 2.23.0.1安装包dockerfile创建问题;
【Deepspeed】解决llama2-7B训练性能是2.23版本70%的问题;
【Onnxruntime】解决conformer fp16推理精度为0;解决python3.10 docker构建失败;解决python3.10的转换工具tensorflow模型转换报错;
【Megatron-LM】优化框架性能,新增chatglm3,qwen2,qwen1.5,baichuan2模型支持;
【vLLM】版本适配切换到0.5.4;优化pagedattn、fusemoekernel实现;新增Llama3.1等模型适配;
【Paddle-maca】优化了部分算子性能;
【internlm】增加对InternEvo的支持;
【modelzoo.llm.ppl】新增支持模型Baichun2-13B;
【modelzoo.cnn.inference】解决Swin-ByteMLPerf Reshape_44 op error;
【modelzoo.llm.diffusers】增加多卡运行代码;
【modelzoo.llm.transformers】解决arm平台测试,加载pytorch,提示libopenblas.so.0找不到;
【diffusers.training】解决SD2.1训练测试1gpu和8gpu失败问题;
【Alpaca-LoRA】首次发布,支持了alpaca-7b和alpaca-13b的lora微调
【Tensorflow2】首次发布,支持Keras19个模型;
已知模块问题和限制说明
【Paddle-maca]】
个别模型偶现训练报错
【Onnxruntime-maca] 】
个别模型推理中出现精度不符合预期,推理报错问题;
【vLLM] 】
个别模型性能测试不稳定;openai测试如遇问题请参考官方issue:https://github.com/vllm-project/vllm/issues/7246;多卡如遇dmesg显存超出信息为正常输出;
【PPLLLM] 】
个别模型推理偶现异常;
【ColossalAI] 】
如果出现OOM:1.在物理机上执行sudo modprobe -r metax && sudo modprobe metax xcore_page_size=9;2.在运行命令前执行exportMALLOC_THRESHOLD=99
【BitsAndBytes]】
Int8xInt8toInt8个别大矩阵乘法运算会有异常;Int8xInt8toInt8性能较低;Matmult矩阵乘性能可能不稳定;
【modelzoo.cnn.training】
ARM平台暂不支持通过内置dockerfile文件来构建modelzoo镜像
Pytorch训练centernet_R18和Retinanet模型时,存在amp精度loss为NaN的情况
Pytorch训练多VF场景下偶发hang
Pytorch训练学习率策略,推荐使用--auto-scale-lr自适应学习率
GPU占用率低时受到其他硬件因素影响较大,在不同机器测试时易出现性能波动
Pytorch个别模型对CPU资源敏感易出现性能波动现象
Pytorchssd模型多卡训练偶发loss为NaN
PytorchDeeplabv3模型FP32精度单卡训练时,需要设置新的环境变量以避免loss为NaN
【TensorFlow】
2个别模型推理精度不符合预期;
|