登录
|
立即注册
社区
社区
文档
下载
沐曦开发者社区
»
社区
›
智算
›
智算框架
›
内容
发新帖
PDE 智算Release_2.27.0.X 发布公告
[复制链接]
60
0
发表于 2025-1-2 17:22:14
|
查看全部
|
阅读模式
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
本帖最后由 黄美玲 于 2025-1-9 09:14 编辑
2.27.0.X已经正式发布并在
软件中心 (metax-tech.com)
上线,欢迎下载。
本次发布的软件包新增/优化/修复说明:
[ColossalAI] 无更新,跟随新的maca发布;
[DeepSpeed] 搭配0.12.3 or 0.15.1版本发布,具体待定;
[Megatron-LM] 更新Torch2.1;
[ONNXRuntime]
增加mha算子attn_mask broadcast规则支
持;
修复fasterRcnn的NMS、topk算子问题;
增加bert、字节模型优化;
[PPL.LLM.Serving] 无更新,跟随新的maca发布;
[InternLM] 无更新,跟随新的maca发布;
[Modelzoo.CNN.Inference] 添加新模型支持,具体模型范围待明确;
[Modelzoo.CNN.Training] 无更新,跟随新的maca发布;
[Modelzoo.LLM.PPL] 无更新,跟随新的maca发布;
[Modelzoo.LLM.Transformers] 无更新,跟随新的maca发布;
[Modelzoo.LLM.Diffusers] 新增支持flux;
[Diffusers.Training] 无更新、跟随新的maca发布;
[Alpaca-LoRA] 无更新、跟随新的maca发布;
[TensorFlow2]
仅支持eager模式、混合精度;
修复qa报的混合训练bug;
[PaddlePaddle] 无更新、跟随新的maca发布;
[Bisandbytes] 适配版本0.44.0;
[MMCV] 无新增功能和改动,预升级官方版本,当前2.2;
[TritonInferenceServer] 无更新、跟随新的maca发布;PS:GUP Metrics功能还不支持;
[Text-generation-inference] 无更新、跟随新的maca发布;
[CV-CUDA] 无新增功能和改动,预升级官方版本,当前0.7.0;
[LMDeploy] Alpha版本,支持常见模型;
[vLLM]
采用临时的flash attn包集成
切换0.6.2版本;
优化gptq&awq性能(gidx属性,正在fix);
预计默认开启cuda-graph,脚本相比之前有变化;
依赖flash attn的whl包(需要vllm包里的flash attn whl包);
num_schedule_steps支持;
[Modelzoo.LLM.vLLM]
vllm更新为0.6.2支持num_scheduler_steps;
batched测试增加warmup;
新增部分模型(awq/gptq...);
cuda graph默认开启;
已知模块问题和限制说明
【Paddle-maca】
1. 个别模型偶现训练报错;
2. 个别模型存在loss为NaN及loss不收敛问题;
【Onnxruntime-maca】
1. ARM推理部分模型缺少libpaddle依赖,推理之前export
2. LD_PRELOAD=/opt/conda/lib/libgomp.so.1
3. conformer的模型缺libsndfile,可手动安装
4. 少数模型性能出现下降
5. arm架构下多线程且输入内存类型为cpu、maca_pinned时,跨MetaxLink推理暂不支持。
【vLLM】
1.
个别模型性能存在波动
2. 部分单卡模型需设置MACA_VLLM_PG_OPT=1提升性能
3. 个别模型bf16与fp16测试值存在小部分偏差
4. 多卡如遇dmesg显存超出信息为正常输出
5. 建议性能测试配置单独执行
6. 个别量化模型测试有异常情况
【modelzoo.llm.ppl】
baichuan2-13Btps在八卡环境上需要加临时环境变量,四卡环境正常;
【ColossalAI】
如果出现OOM:
1.在物理机上执行sudomodprobe-rmetax&&sudomodprobemetax xcore_page_size=9
2.在运行命令前执行exportMALLOC_THRESHOLD=99
【BitsAndBytes】
1. 个别大矩阵性能较低
2. 部分矩阵性能不稳定
【Diffusers.training】
在ky2309a-aarch64平台上,性能数据有下降;
【modelzoo.cnn.training】
1. centernet_R18和Retinanet模型训练时,存在amp精度loss为NaN的情况;
2. Pytorch训练多VF场景下偶发hang;
3. Pytorch训练学习率策略,推荐使用--auto-scale-lr自适应学习率;
4. GPU占用率低时受到其他硬件因素影响较大,在不同机器测试时易出现性能波动;
5. 个别模型对CPU资源敏感易出现性能波动现象;
6. ssd模型多卡训练偶发loss为NaN;
7. Deeplabv3模型FP32精度单卡训练时,需要设置新的环境变量以避免loss为NaN;
8. FP32精度训练,可以通过使能PYTORCH_ALLOW_CUDA_CUDNN_TF32,TORCH_ALLOW_TF32_CUBLAS_OVERRIDE环境变量提升性能;
9. centernet模型FP32精度训练时,设置PYTORCH_ALLOW_CUDA_CUDNN_TF32,TORCH_ALLOW_TF32_CUBLAS_OVERRIDE环境变量时可能导致精度问题;
10. 个别模型多卡对单卡性能提升的线性度不足;
11. 个别模型在torch2.1和torch2.0版本性能存在差异
12. N260环境特殊场景下可能存在性能下降
【TensorFlow2】
1. keras个别模型训练精度不符合预期;
2. keras训练性能偏低;
3. facenet模型训练性能偏低;
4. facenet模型在Arm环境中训练存在异常的情况;
5. facenet模型训练存在偶发hang的情况;
【mmcv】
1. 部分算子报AssertionError错误;
2. container中FFmpeg报错缺少libxcb-shape.so.0;
【Deepspeed】
1. 部分模型性能不达标
2. Xtuner部分模型偶现dmesglibmccl.sosegfault
3. Xtunerinternlm2-20b模型训练dmesg有“failedtocreateboondomainVRAM”Error
4. XtunerQwen2-7B-Instruct和Qwen1.5-1.8B-Chat模型训练失败
5. Xtuner部分模型训练存在性能较低情况
举报
回复
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
黄美玲
注册会员
3
主题
0
回帖
67
积分
Ta的主页
发私信
图文热点
lab3好恐怖
lab3我到最后都是一个单位一个单位的成绩提升,这个单位大概是0.13us 最后甚至 ...
请问__shared__不能针对float变量进行
请问__shared__不能针对float变量进行定义吗? ...
请求算法指点
我的本意不是想在这里作弊,但是我的运行时间一直降不下来,我想在这里求一些指 ...
推荐话题
1.
沐曦官方提供的deepseek相关的技术分享下载
2.
MACA Monthly Release 2.29.0.x 发布公告
3.
社区开放注册啦~
4.
MACA Monthly Release 2.27.0.x 发布公告
5.
PDE 智算Release_2.27.0.X 发布公告
6.
diag memory test说明
7.
lab3好恐怖
8.
lab1排行榜
精彩时刻
lab3好恐怖
lab3我到最后都是一个单位一个单位的成绩提升,这个单位大概是0.13us 最后甚至榜上
请问__shared__不能针对float变量进
请问__shared__不能针对float变量进行定义吗?
请求算法指点
我的本意不是想在这里作弊,但是我的运行时间一直降不下来,我想在这里求一些指点,
算子平台提交
下午3点提交到现在还在排队?
咨询增加线程容量
请问有没有必要增加线程的容量
新人必看
社区规则
隐私保护
监督机制
关于版权
快速回复
返回顶部
返回列表