马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 沐曦-马天舒 于 2025-1-15 15:03 编辑
MACA 2.27.0.x 已经正式发布并在软件中心 (metax-tech.com)上线,欢迎下载。
版本信息:
Component Name | Version Information
| Metax vbios | 1.20.3.0 | Metax Driver | 2.27.0.11
| MACA SDK | 2.27.0.11
| MACA Pytorch | 2.27.0.8
|
发布内容:
[Feature] 增加 vbios 对 RAVS电压补偿方案的支持
[Feature] 增加 vbios 对光模块热插拔功能的支持 [Feature] 增加 vbios 中 SDMA 对 tracer timestamp 的支持
[Feature] mxjpeg vpud/vpue 支持 stream 操作
[Feature] mxjpeg vpud 支持 batch 功能 [Improvement] cu-bridge 兼容性提升
[Feature] 通信库适配支持 Dragonfly 32卡拓扑
[Feature] 通信库适配支持博通/云合等网卡交换机
[Feature] 软件栈适配支持天固 Gen5/超聚变/单机 Dragonfly 16 卡等服务器
[Feature] 支持了 OpenCL V1.2 Spec 中的所有 builtin function
[Feature] 发布 OpenCL 编译器mxcc-ocl
[Feature] 使能了OpenACC 编译中的collapse 子句
[Feature] 发布了 MXMACA 语言编程工具clangd,包括 Visual Studio Code Extension 等
[Feature] 在MI 调度阶段引入了Igroup 功能模块,为MMA 相关的代码段引入了用户可配置的调度策略,提高了指令调度的效率 [Feature] mcBlasLt 库支持了 gemm 的 out of place 功能
[Feature] mcBlas 库修复了 kernel selection 工具在不同 python 版本下的兼容性问题[Feature] mcBlas 库增加了 deterministic mode 的支持 [Feature] mcDNN 库增加 bf16fwd conv 融合支持 [Feature] mcDNN 库LSTM增加 dropout 支持 [Feature] mcTlass 库增加 bf16 group gemm 功能支持
[Feature] mcTlass 库增加 int8 gemm下ScaleBias 类型融合的功能支持 [Feature] FlashAttn 库增加 DeepSeek v2 的MLA 功能支持
[Feature] FlashInfer 库发布 0.1.5完整功能版本,文持 prefill、decoder 和cascade 等推理需求 [Feature] mcPytorch 增加了 ProcessGroup 的mpi 后端支持 [Feature] mcTracer 支持单机多进程多卡场景
[Feature] mcTracer 支持 Call Stack 显示
[Improvement] 完善 vbios 中 CE对 direct_dispatch 模式的支持
[Improvement] mclmage 性能提升 50%-10倍
[Improvement] mcMathLib 的15个常用接口性能提升 10%以上
[Improvement] 提升 mcrtc 兼容性,在编译过程中的行为逻辑和 nvrtc的更加接近,大幅降低用户对jitify 的相关代码进行修改适配
[Improvement] SOMA 兼容CUDA虚拟地址的管理行为,減少部分场景潜在的显存碎片化问题
[Improvement] CUDA Graph IB 模式性能提升,并且 CUDA Graph IB 模式默认开后,提升 智算推理场景性能
[Improvement] 提升单节点多卡环境DMA queue 的吞吐量,大幅提升 DMA queue 满负荷使用场景的性能
[Improvement] 提升单卡部分 size D2D memcpy 性能(4MB-64MB 提升约30%)
[Improvement] mcBlas 库 bf16 gemm 性能表现提升至与fp16 gemm 一致水平 [Improvement] mcBlas 库优化了 group gemm api 在 MOE 模型训练场景下的性能 [Improvement] mcBlas 库优化了 bf16/fp16 gemm 在 problem size 非对齐场景下的性能 [Improvement] mcBlas 库优化了 bf16/fp16 在 new fused config 2M page size 下的性能 [Improvement] mcDNN 库 bf16 fwd conv 性能表现提升至与fp16 fwd conv 一致水平 [Improvement] FlashAttn 库优化了 DeepSeek V2 的MLA 性能 [Improvement] FlashAttn 库优化了 headdim 为32 奇数倍的推理算子性能 [Improvement] mcFft 库优化了127以内素数基的性能
[Improvement] mcFft 库优化了小 size 2D 和 3Dreal transform 算子性能 [Improvement] mcPytorch移除 kernel 中关于 assert 的使用,提升了相关kernel 的性能 [Improvement] mcPytorch 优化部分非连续输入输出场景下cat/reduce 算子性能 [Improvement] 提升了 OpenACC 的性能,使得 VASP Benchmark 的性能超过 A100 Cuda-C VASP 的性能
[Improvement] 优化了MI调度模块,使得Triton MMA 的 utilization 从 60%提升到73%
[Improvement] 优化了 Uniform branch 处理方法,提升了 mcTlass gemm i8 性能 5%~20%
[Improvement] 优化了 pk_fma 处理策略,提升 vllm gptq kernel 性能约20%
[Improvement] 优化了 bf16 cvt 和compute 的处理,提升了 bf16 hgemm_nt 的性能约 25%,达到fp16 hgemm_nt 的85%
|