MetaX-Tech Developer Forum
  • 沐曦开发者
search
Sign in

TianShu_Ma

  • Members
  • Joined 2025年6月27日
  • message 帖子
  • forum 主题
  • favorite 关注者
  • favorite_border Follows
  • person_outline 详细信息

TianShu_Ma has posted 2 messages.

  • See post chevron_right
    TianShu_Ma
    Members
    MACA Release Announcement -- 2.33.0.x 产品&运维 2025年7月2日 14:27

    MACA Monthly Release 2.33.0.x is ready, please refer to developer community to get the latest version.

    Version info:
    - Metax vbios: 1.25.1.0
    - Metax Driver: 2.33.0.9
    - MACA SDK: 2.33.0.12
    - MACA Pytorch: 2.33.0.5
    - Metax IREE: 2.33.0.0

    Release Content
    Metax Driver
    - [KMD] [Improved] 提供KMD错误码,并打印到日志。
    - [KMD] [Improvement] KMD提供ECC errors的统计和显示。
    - [KMD] [Improvement] 支持使用只读方式打开文件,进行Host2Device拷贝操作。
    - [SMI] [Feature] 提供sGPU模式的-i 参数功能,显示一台服务器上所有sGPU实例。
    - [SMI] [Feature] 提供对sGPU调度队列的优先级设置,增加运维调度的可配置灵活性。
    - [SMI] [Improvement] SMI提供ECC errors的统计和显示。
    - [SMI] [Improvement] SMI拓扑显示支持国产网卡。
    - [SMI] [Improvement] SMI升级Firmware前,增加检查服务器MMIO地址空间的逻辑,避免识别不准恢复的问题。
    - [SMI] [Improvement] 整合芯片和板卡SN号,显存型号和大小的信息显示。

    MACA SDK
    - [mxExporter] [Improvement] mx-exporter上报EID,ECC error指标。
    - [mxExporter] [Improvement] mx-exporter上报mxk AER,收发总字节指标。
    - [UMD] [Feature] MCPTI支持NVTX3_FUNC_WITH_PARAMS API。
    - [UMD] [Improvement] MCPTI支持Graph实例化后再开启Pytorch Profiling。
    - [UMD] [Improvement] mcpti支持single-block方式配置perfcounter。
    - [UMD] [Improvement] 支持当GPU资源不满足用户配置的MACA_CONFIGURATOR_QUEUE_PRIORITY时,自动根据可用硬件Queue数目修改配置的优先级配置。
    - [UMD] [Improvement] 调试功能增强:支持通过配置文件设置kernel名字,使得该kernel所在rodata为readonly,便于调试内存踩踏问题。
    - [UMD] [Improvement] 提供UMD错误代码,并打印到日志。
    - [MCCL] [Feature] 通信库支持DeepPE64通信。
    - [MCCL] [Feature] TransferReduce增加RDMA链路检测功能,用于检测集群网络可用性。
    - [MCCL] [Improvement] OAM机型默认开启PCIE链路通信,通信性能提升10%-20%。
    - [MCCL] [Improvement] 计算通信并行,AllReduce(ReduceScatter算法支持分片传输),性能提升20%。
    - [Compiler] [Feature] Fortran OpenACC编译器支持WRF项目工程中新增需求特性。
    - [Compiler] [Feature] memory_async 应用接口实现。
    - [Compiler] [Improvement] Improve vlm page atten BF16 performance with auto predicate optimization
    - [ACL] [Feature] mc classify新增int8 batched gemm基础功能支持。
    - [ACL] [Feature] mc classify新增int8 fused moe接口功能支持。
    - [ACL] [Improvement] BLAS groupgemm performance improvement
    - [ACL] [Improvement] FlashAttention优化deepspeed的MLA算法在EP128切分下性能到70%
    - [ACL] [Improvement] flashMLA优化了deepseek推理所需shape的性能
    - [ACL] [Improvement] mc classify int8 gemm性能优化

    MACA Pytorch
    - [ACL] [Feature] Pytorch2.1/2.4扩展支持sdma类型通信op
    - [ACL] [Improvement] torch使用flash_attn库c api接入相关功能

  • See post chevron_right
    TianShu_Ma
    Members
    mctlass 库 builtin函数介绍 编程 2025年6月27日 16:31

    后续会在《MACA C++编程指南》中增加这些builtin函数的说明

  • 沐曦开发者论坛
powered by misago