登录
|
立即注册
社区
社区
文档
下载
沐曦开发者社区
»
社区
›
MXMACA软件栈
›
基础软件栈
›
内容
发新帖
MACA Monthly Release 2.29.0.x 发布公告
[复制链接]
34
0
发表于
5 天前
|
查看全部
|
阅读模式
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
MACA 2.29.0.x 已经正式发布并在
软件中心 (metax-tech.com)
上线,欢迎下载。
版本信息:
Component Name
Version Information
Metax vbios
1.22.3.0
Metax Driver
2.29.0.13
MACA SDK
2.29.0.19
MACA Pytorch
2.29.0.4
发布内容:
[Feature]支持基于apt/yum的Metax Driver和MACA SDK在线安装和卸载的基本功能。
[Feature]支持在多个未执行完的kernel里精确定位引起trap问题的kernel,以及trapDump工具增强kernel入参检查。
[Feature]Fortran OpenACC编译器中支持了Reduction分离特性。
[Feature]新增mlir-translate编译器组件工具,支持mlir文件到Ivm ir文件的转换。
[Feature]发布mcPytorch2.4版本。
[Feature]mcAudio发布2.4版本,功能支持95%
[Feature]mcTriton发布3.0版本。
[Feature]重新调整mcBLAS库头文件,兼容性测试已经通过。
[Feature]升级flashAttn库版本到2.6.3,增加了softcap、small page size推理等功能的支持。
[Feature]发布mcspconv库初版。
[Improvement]MXMACAGraph的并行节点最大限度分散到不同硬件queue,提升部分场景的性能。
[lmprovement]DirectDispatch的command状态更新代码从app线程迁移到后台管理线程,提升部分场景的性能。
[Improvement]mcTracer/mcpti的tracing数据准确性提升,改进mcMemcpy在大size拷贝时耗时统计的精确性。
[Improvement]mcTracer/mcpti增加后台非实时线程处理app线程的tracing数据,降低app线程进行tracing的overhead(在某多进程多卡场景的profiling时间从75s減少到15s)
[Improvement]github上挑选的有意义的CUDA开源项目,通过率达到3429/3838=89%
[Improvement]MCCL优化C500/C550AllToAll通信,整体性能平均提升20%
[Improvement]MCCL优化C500/C550低时延算法,小数据量通信时延平均降低30%
[Improvement]MCCL优化C500X Switch跨机EP4/EP8通信性能,整体性能平均提升200%
[Improvement]MCCL支持基于nccl 2.20版本的异构集群。
[Improvement]改进post ra调度策略,消除了非必要snop,Triton的TN pipeline性能提升5%
[Improvement]post register allocation ldp/stp进行合并,提升了flashattention的性能。
[Improvement]mcBLAS库优化了部分大模型推理场景下的性能。
[lmprovement]flashAttn库优化了部分大模型推理场景下paged attention的性能。
[Improvement]mcTlass优化int8TN gemm在vllm w8a8应用场景下的性能。
举报
回复
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
沐曦-马天舒
DOC_CTL
4
主题
1
回帖
227
积分
Ta的主页
发私信
图文热点
lab3好恐怖
lab3我到最后都是一个单位一个单位的成绩提升,这个单位大概是0.13us 最后甚至 ...
请问__shared__不能针对float变量进行
请问__shared__不能针对float变量进行定义吗? ...
请求算法指点
我的本意不是想在这里作弊,但是我的运行时间一直降不下来,我想在这里求一些指 ...
推荐话题
1.
沐曦官方提供的deepseek相关的技术分享下载
2.
MACA Monthly Release 2.29.0.x 发布公告
3.
社区开放注册啦~
4.
MACA Monthly Release 2.27.0.x 发布公告
5.
PDE 智算Release_2.27.0.X 发布公告
6.
diag memory test说明
7.
lab3好恐怖
8.
lab1排行榜
精彩时刻
lab3好恐怖
lab3我到最后都是一个单位一个单位的成绩提升,这个单位大概是0.13us 最后甚至榜上
请问__shared__不能针对float变量进
请问__shared__不能针对float变量进行定义吗?
请求算法指点
我的本意不是想在这里作弊,但是我的运行时间一直降不下来,我想在这里求一些指点,
算子平台提交
下午3点提交到现在还在排队?
咨询增加线程容量
请问有没有必要增加线程的容量
新人必看
社区规则
隐私保护
监督机制
关于版权
快速回复
返回顶部
返回列表