马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 沐曦-马天舒 于 2024-12-23 16:41 编辑
MACA 2.24.0.x 已经正式发布并在软件中心 (metax-tech.com)上线,欢迎下载。
版本信息:
Component Name | Version Information | Metax Driver | 2.24.0.10 | MACA SDK | 2.24.0.12 | MACA Pytorch | 2.24.0.5 |
发布内容:
[Feature] 提供了DirectDispatch功能,默认关闭,需要使用环境变量使"exportMACADIRECTDISPATCH=I"。
打开Direct功能后,每个Stream不再新建单独的CPU线程管理,可以有效减少CPU线程数,降低CPU负载。 DirectDispatch可以避免MACASDK接收任务的顺序和送给硬件执行任务的顺序不完全一致导致的死锁问题。[Feature]GraphAPI支持MemoryNode基本功能。 [Feature] 通信库集成支持异构集群。 [Feature] mTracer支持根据UMD的memorytracinglog单独生成trace文件,并且可以通过mcTracer-Viewer打开并显示。 [Feature] mcDnn增加了fp16前向depthwise卷积融合功能。 [Feature] mcDnn增加了外置kernel选择优化工具。 [Feature] mcBlas增加了外置kernel选择优化工具。 [Feature] FlashAttention增加了MHA/GQAbackward的全部headdim的支持。 [Feature] FlashAttention增加了对decoderattention和pagedaftention的全部headdim的支持。 [Feature] FlashAttention支持了更通用的attentionmasko[Feature]编译器增加了globalload/storebuiltinfunctionwithpredicator [Improvement] 加强了多进程支持的稳定性,并有小幅性能提升。 此功能默认关闭,需要使用环境变量使能"exportMACAMPSMODE=1" 使能MACAMPSMODE后,H.264视频128进程解码fps从30fps提高到50fps,同时CPU使用率降低2.5倍。 MACAMPSMODE功能无法和MACADIRECTDISPATCH同时使用。 [Improvement] 缩短了编解码第一帧的出帧时间。 [Improvement] mclmage性能提升,帮助部分解码操作平均提升10%一20%性能。 [Improvement] 部分数学函数性能小幅提升20%左右。 [Improvement] CUDASample兼容性进一步提升,可以跑通141个,比2.23.0多通过40个。 [Improvement] mcptitracer质量加强。 [Improvement] 修复了一些ARM平台上的软件适配问题。 [Improvement] 通信库Ring算法支持网卡和PCIe并行通信,C500XTP8带宽性能提升20%。 [Improvement] 通信库分步算法性能优化,C500XTP8带宽性能提升30%。 [Improvement] C550通信性能优化,单机多卡通信带宽性能提升10.20%。 [Improvement] 通信库支持ARM机型复用PCIE链路通信,单机多卡通信带宽性能提升30%。 [Improvement] MPI/UCX多机性能调优,MPIsendrecv性能达到理论值。 [Improvement] mcTracer优化不显示无用信息如业务无关的metrics等。 [Improvement] mcDnn提升了CNN模型场景下的卷积性能。 [Improvement] FlashAttention提升了凵ama模型在headdim为64和128条件下的性能月12一20%。 [Improvement] mcPytorch提升了elementwise、scatter等算子性能 [Improvement] mcTriton提升但dot场景下变成生成的kernel性能。 [Improvement] 优化了针对tensorcore的指令调度。
|