MACA Monthly Release 2.27.0.x 发布公告

查看全部 · 发表于 2024-12-23 14:08:01

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由沐曦-马天舒于 2025-1-15 15:03 编辑

MACA 2.27.0.x 已经正式发布并在软件中心 (metax-tech.com)上线，欢迎下载。

版本信息：

Component Name	Version Information
Metax vbios	1.20.3.0
Metax Driver	2.27.0.11
MACA SDK	2.27.0.11
MACA Pytorch	2.27.0.8

发布内容：

[Feature] 增加 vbios 对 RAVS电压补偿方案的支持
[Feature] 增加 vbios 对光模块热插拔功能的支持

[Feature] 增加 vbios 中 SDMA 对 tracer timestamp 的支持
[Feature] mxjpeg vpud/vpue 支持 stream 操作
[Feature] mxjpeg vpud 支持 batch 功能

[Improvement] cu-bridge 兼容性提升
[Feature] 通信库适配支持 Dragonfly 32卡拓扑
[Feature] 通信库适配支持博通/云合等网卡交换机
[Feature] 软件栈适配支持天固 Gen5/超聚变/单机 Dragonfly 16 卡等服务器
[Feature] 支持了 OpenCL V1.2 Spec 中的所有 builtin function
[Feature] 发布 OpenCL 编译器mxcc-ocl
[Feature] 使能了OpenACC 编译中的collapse 子句
[Feature] 发布了 MXMACA 语言编程工具clangd，包括 Visual Studio Code Extension 等
[Feature] 在MI 调度阶段引入了Igroup 功能模块，为MMA 相关的代码段引入了用户可配置的调度策略，提高了指令调度的效率

[Feature] mcBlasLt 库支持了 gemm 的 out of place 功能
[Feature] mcBlas 库修复了 kernel selection 工具在不同 python 版本下的兼容性问题[Feature] mcBlas 库增加了 deterministic mode 的支持

[Feature] mcDNN 库增加 bf16fwd conv 融合支持

[Feature] mcDNN 库LSTM增加 dropout 支持

[Feature] mcTlass 库增加 bf16 group gemm 功能支持
[Feature] mcTlass 库增加 int8 gemm下ScaleBias 类型融合的功能支持

[Feature] FlashAttn 库增加 DeepSeek v2 的MLA 功能支持
[Feature] FlashInfer 库发布 0.1.5完整功能版本，文持 prefill、decoder 和cascade 等推理需求

[Feature] mcPytorch 增加了 ProcessGroup 的mpi 后端支持

[Feature] mcTracer 支持单机多进程多卡场景
[Feature] mcTracer 支持 Call Stack 显示
[Improvement] 完善 vbios 中 CE对 direct_dispatch 模式的支持
[Improvement] mclmage 性能提升 50%-10倍
[Improvement] mcMathLib 的15个常用接口性能提升 10%以上
[Improvement] 提升 mcrtc 兼容性，在编译过程中的行为逻辑和 nvrtc的更加接近，大幅降低用户对jitify 的相关代码进行修改适配
[Improvement] SOMA 兼容CUDA虚拟地址的管理行为，減少部分场景潜在的显存碎片化问题
[Improvement] CUDA Graph IB 模式性能提升，并且 CUDA Graph IB 模式默认开后，提升智算推理场景性能
[Improvement] 提升单节点多卡环境DMA queue 的吞吐量，大幅提升 DMA queue 满负荷使用场景的性能
[Improvement] 提升单卡部分 size D2D memcpy 性能（4MB-64MB 提升约30%）
[Improvement] mcBlas 库 bf16 gemm 性能表现提升至与fp16 gemm 一致水平

[Improvement] mcBlas 库优化了 group gemm api 在 MOE 模型训练场景下的性能

[Improvement] mcBlas 库优化了 bf16/fp16 gemm 在 problem size 非对齐场景下的性能

[Improvement] mcBlas 库优化了 bf16/fp16 在 new fused config 2M page size 下的性能

[Improvement] mcDNN 库 bf16 fwd conv 性能表现提升至与fp16 fwd conv 一致水平

[Improvement] FlashAttn 库优化了 DeepSeek V2 的MLA 性能

[Improvement] FlashAttn 库优化了 headdim 为32 奇数倍的推理算子性能

[Improvement] mcFft 库优化了127以内素数基的性能
[Improvement] mcFft 库优化了小 size 2D 和 3Dreal transform 算子性能

[Improvement] mcPytorch移除 kernel 中关于 assert 的使用，提升了相关kernel 的性能

[Improvement] mcPytorch 优化部分非连续输入输出场景下cat/reduce 算子性能

[Improvement] 提升了 OpenACC 的性能，使得 VASP Benchmark 的性能超过 A100 Cuda-C VASP 的性能
[Improvement] 优化了MI调度模块，使得Triton MMA 的 utilization 从 60%提升到73%
[Improvement] 优化了 Uniform branch 处理方法，提升了 mcTlass gemm i8 性能 5%~20%
[Improvement] 优化了 pk_fma 处理策略，提升 vllm gptq kernel 性能约20%
[Improvement] 优化了 bf16 cvt 和compute 的处理，提升了 bf16 hgemm_nt 的性能约 25%，达到fp16 hgemm_nt 的85%