MetaX-Tech Developer Forum 论坛首页
  • 沐曦开发者
search
Sign in

inkstone

  • Members
  • Joined 2025年7月7日
  • message 帖子
  • forum 主题
  • favorite 关注者
  • favorite_border Follows
  • person_outline 详细信息

inkstone has posted 8 messages.

  • See post chevron_right
    inkstone
    Members
    L2 cache缓存失效/强制HBM读取方法 已解决 2026年3月12日 17:48
    @aaron has written:

    你好,使用新版本驱动后问题依然存在。
    mx-smi version: 2.1.10

    =================== MetaX System Management Interface Log ===================
    Timestamp : Fri Mar 6 13:40:47 2026

    Attached GPUs : 8
    +---------------------------------------------------------------------------------+
    | MX-SMI 2.1.10 Kernel Mode Driver Version: 3.3.12 |
    | MACA Version: 3.2.1.10 BIOS Version: 1.20.3.0 |
    |------------------------------------+---------------------+----------------------+
    | GPU NAME | Bus-id | GPU-Util |
    | Temp Pwr:Usage/Cap | Memory-Usage | |
    |====================================+=====================+======================|
    | 0 MetaX C550 | 0000:0f:00.0 | 0% |
    | 35C 96W / 450W | 858/65536 MiB | |
    +------------------------------------+---------------------+----------------------+
    | 1 MetaX C550 | 0000:34:00.0 | 0% |
    | 38C 95W / 450W | 858/65536 MiB | |
    +------------------------------------+---------------------+----------------------+
    | 2 MetaX C550 | 0000:48:00.0 | 0% |
    | 38C 96W / 450W | 858/65536 MiB | |
    +------------------------------------+---------------------+----------------------+
    | 3 MetaX C550 | 0000:5a:00.0 | 0% |
    | 37C 97W / 450W | 858/65536 MiB | |
    +------------------------------------+---------------------+----------------------+
    | 4 MetaX C550 | 0000:87:00.0 | 0% |
    | 35C 93W / 450W | 858/65536 MiB | |
    +------------------------------------+---------------------+----------------------+
    | 5 MetaX C550 | 0000:ae:00.0 | 0% |
    | 39C 96W / 450W | 858/65536 MiB | |
    +------------------------------------+---------------------+----------------------+
    | 6 MetaX C550 | 0000:c2:00.0 | 0% |
    | 39C 95W / 450W | 858/65536 MiB | |
    +------------------------------------+---------------------+----------------------+
    | 7 MetaX C550 | 0000:d7:00.0 | 0% |
    | 38C 99W / 450W | 858/65536 MiB | |
    +------------------------------------+---------------------+----------------------+

    +---------------------------------------------------------------------------------+
    | Process: |
    | GPU PID Process Name GPU Memory |
    | Usage(MiB) |
    |=================================================================================|
    | no process found |
    +---------------------------------------------------------------------------------+
    两个GPU上核函数伪代码如下
    global void setV(float *ptr)
    {
    float val = 3.3f;
    int r = 10;

    float *peer_ptr = ptr;
    
    if (idx == 0) {
        store_with_flush<float>(peer_ptr, val);
    }
    asm volatile("wb_l2\n");
    asm volatile("arrive 0\n");
    __threadfence_system();
    if (idx == 0)
        printf("in GPU setV %.3f %.3f\n", val, load_uncached<float>(peer_ptr));
    while (r-- > 0 && idx == 0) {
        __nanosleep(1000000000);
    }
    

    }

    global void printfV(float *ptr)
    {
    int r = 10;
    while (true && idx == 0 && r-- > 0) {
    asm volatile("wb_l2\n");
    asm volatile("arrive 0\n");
    __threadfence_system();
    printf("in GPU printf %.3f\n", load_uncached<float>(ptr));
    __nanosleep(1000000000);
    }
    printf("current threadIdx %d\n", idx);
    }

    可以使用mcExtMallocWithFlags试试 (/opt/maca/include/mcr/mc_runtime_api.h有这个API的功能介绍)

  • See post chevron_right
    inkstone
    Members
    mcProfiler的使用问题 已解决 2025年9月21日 11:59

    Command Line: 要执行的程序命令及参数
    Case Name: 本次任务的名字

  • See post chevron_right
    inkstone
    Members
    mcProfiler的使用问题 已解决 2025年9月21日 11:53

    "perf counter"是mcProfiling工具提供,看前面帖子,依然未使用成功?
    “Cycle Trace”使用起来更复杂,目前需通过商务渠道定向申请获取。

  • See post chevron_right
    inkstone
    Members
    Profiling工具咨询。 已解决 2025年9月21日 11:36
    @jiangbin has written:

    你好,现在使用的mcTracer能打印出kernel的执行时间,但是无法打印kernel在硬件信息的执行流水,类似于数据搬运,kernel加载,kernel执行,这样对于性能优化分析很不友好,请教一下,是否有类似于nv compute的分析工具,可以对算子执行流水进行解析。谢谢。

    mcTracer 是一款与 NVIDIA NSight System 功能相近的系统级时序跟踪与分析工具。如果您需要类似 NSight Compute 的核函数细粒度性能分析功能,建议尝试 mcProfiler,看是否满足您的需求。
    另外,关于“算子执行流水”深层次分析功能,目前需通过商务渠道定向申请获取专用工具 cycle-trace。

  • See post chevron_right
    inkstone
    Members
    如何使用异步拷贝以达到优化的效果呢? 已解决 2025年9月3日 20:21

    镜像的SDK版本是不是低于2.33?看release note是在2.33开始支持的(是否有性能提升需结合实际场景测试):
    developer.metax-tech.com/forum/t/maca-release-announcement-2330x/31/
    - [Compiler] [Feature] memory_async 应用接口实现

  • See post chevron_right
    inkstone
    Members
    如何使用异步拷贝以达到优化的效果呢? 已解决 2025年9月3日 10:00

    gitee.com/p4ul/cu-bridge 看上去原作者是没维护了,metax-maca账号有个fork和继续维护的版本:
    gitee.com/metax-maca/cu-bridge/tree/master#metax-macacu-bridge%E6%A0%87%E7%AD%BE

    可以根据使用指南安装尝试一下:
    gitee.com/metax-maca/cu-bridge/blob/master/docs/02_User_Manual/README.md#step-2%E5%AE%89%E8%A3%85cu-bridge

    cuda_pipeline_primitives.h在最新的master版本有相关的改动(也可以更新一下你本地这个文件试试):
    gitee.com/metax-maca/cu-bridge/blob/master/include/cuda_pipeline_primitives.h

  • See post chevron_right
    inkstone
    Members
    如何使用异步拷贝以达到优化的效果呢? 已解决 2025年9月3日 08:49

    使用MXMACA原生的编程语言是支持maca_async.h功能的(可以异步拷贝),看cu-bridge源码,把替换memcpy_async宏替换成memcpy_sync了,此前给cu-bridge提了bug单,可以试试下载cu-bridge最新源码版本本地安装一下,看看该bug是否已修复。

  • See post chevron_right
    inkstone
    Members
    沐曦GPU是否支持CUDA工具包中的MPS服务 已解决 2025年8月22日 20:41

    支持的,只需要每个用户进程启动前配置一下环境变量(export MACA_MPS_MODE=1)就可以了,详细介绍见《曦云系列_通用计算GPU_运行时API编程指南》的“3.9. MPS多进程服务”。

  • 沐曦开发者论坛
powered by misago