马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 沐曦-马天舒 于 2024-12-23 16:41 编辑
MACA 2.25.2.x 已经正式发布并在软件中心 (metax-tech.com)上线,欢迎下载。
版本信息:
Component Name | Version Information | Metax Driver | 2.25.2.8 | MACA SDK | 2.25.2.9 | MACA Pytorch | 2.25.2.8 |
发布内容:
[Feature]mcpti新增了GraphAPI IB模式的tracer功能支持。 [Feature]Pytorch2.1在显存管理模块中增加了expandable_segments功能。
[Feature]編译器为OpenAcc支持了Ibound/acc_ache特性。
[Feature]編译器支持OpenCL vector load/store的builtin function。
[Feature]发布了一款集群环境检测工具inspector。
[Improvement]加强了使用GraphAPI的场景覆盖,提高了使能GraphAPI IB模式后的软件质量和性能。
[Improvement]加强了使能Direct Dispatch的场景覆盖,提高了使能Direct Dispatch后的软件质量和性能。
[Improvement]加强了显存使用复杂场景(多卡、坏页等)的覆盖,并优化了显存占用一致性。
[Improvement]mcpti activity质量增强。
[Improvement]VPUD 264sps/pps优化。
[Improvement]mcProfiler UX优化。
[Improvement]大模型在OAM机型上的通信算子性能符合理论值。
[Improvement]提升了blaslt库在bert推理场景的性能。
[Improvement]提升了pytorch cat和scatter算子性能。
[Improvement]提升了flash attention中attn mask场景的算子性能。
[Improvement]编译器优化了alloca指令合并策略,提升了内存访问的性能。
[Improvement]优化了冗余的跨基本块的fp16数据合并操作,提升triton mma场景性能达10%
|