MACA Monthly Release 2.29.0.x 发布公告

[复制链接]
33 0

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
MACA 2.29.0.x 已经正式发布并在软件中心 (metax-tech.com)上线,欢迎下载。

版本信息:

Component Name
Version  Information
Metax vbios
1.22.3.0
Metax Driver
2.29.0.13
MACA SDK
2.29.0.19
MACA Pytorch
2.29.0.4


发布内容:
[Feature]支持基于apt/yum的Metax Driver和MACA SDK在线安装和卸载的基本功能。
[Feature]支持在多个未执行完的kernel里精确定位引起trap问题的kernel,以及trapDump工具增强kernel入参检查。
[Feature]Fortran OpenACC编译器中支持了Reduction分离特性。
[Feature]新增mlir-translate编译器组件工具,支持mlir文件到Ivm ir文件的转换。
[Feature]发布mcPytorch2.4版本。
[Feature]mcAudio发布2.4版本,功能支持95%
[Feature]mcTriton发布3.0版本。
[Feature]重新调整mcBLAS库头文件,兼容性测试已经通过。
[Feature]升级flashAttn库版本到2.6.3,增加了softcap、small page size推理等功能的支持。
[Feature]发布mcspconv库初版。
[Improvement]MXMACAGraph的并行节点最大限度分散到不同硬件queue,提升部分场景的性能。
[lmprovement]DirectDispatch的command状态更新代码从app线程迁移到后台管理线程,提升部分场景的性能。
[Improvement]mcTracer/mcpti的tracing数据准确性提升,改进mcMemcpy在大size拷贝时耗时统计的精确性。
[Improvement]mcTracer/mcpti增加后台非实时线程处理app线程的tracing数据,降低app线程进行tracing的overhead(在某多进程多卡场景的profiling时间从75s減少到15s)
[Improvement]github上挑选的有意义的CUDA开源项目,通过率达到3429/3838=89%
[Improvement]MCCL优化C500/C550AllToAll通信,整体性能平均提升20%
[Improvement]MCCL优化C500/C550低时延算法,小数据量通信时延平均降低30%
[Improvement]MCCL优化C500X Switch跨机EP4/EP8通信性能,整体性能平均提升200%
[Improvement]MCCL支持基于nccl 2.20版本的异构集群。
[Improvement]改进post ra调度策略,消除了非必要snop,Triton的TN pipeline性能提升5%
[Improvement]post register allocation ldp/stp进行合并,提升了flashattention的性能。
[Improvement]mcBLAS库优化了部分大模型推理场景下的性能。
[lmprovement]flashAttn库优化了部分大模型推理场景下paged attention的性能。
[Improvement]mcTlass优化int8TN gemm在vllm w8a8应用场景下的性能。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表