Command Line: 要执行的程序命令及参数
Case Name: 本次任务的名字
Command Line: 要执行的程序命令及参数
Case Name: 本次任务的名字
"perf counter"是mcProfiling工具提供,看前面帖子,依然未使用成功?
“Cycle Trace”使用起来更复杂,目前需通过商务渠道定向申请获取。
mcTracer 是一款与 NVIDIA NSight System 功能相近的系统级时序跟踪与分析工具。如果您需要类似 NSight Compute 的核函数细粒度性能分析功能,建议尝试 mcProfiler,看是否满足您的需求。
另外,关于“算子执行流水”深层次分析功能,目前需通过商务渠道定向申请获取专用工具 cycle-trace。
镜像的SDK版本是不是低于2.33?看release note是在2.33开始支持的(是否有性能提升需结合实际场景测试):
developer.metax-tech.com/forum/t/maca-release-announcement-2330x/31/
- [Compiler] [Feature] memory_async 应用接口实现
gitee.com/p4ul/cu-bridge 看上去原作者是没维护了,metax-maca账号有个fork和继续维护的版本:
gitee.com/metax-maca/cu-bridge/tree/master#metax-macacu-bridge%E6%A0%87%E7%AD%BE
可以根据使用指南安装尝试一下:
gitee.com/metax-maca/cu-bridge/blob/master/docs/02_User_Manual/README.md#step-2%E5%AE%89%E8%A3%85cu-bridge
cuda_pipeline_primitives.h在最新的master版本有相关的改动(也可以更新一下你本地这个文件试试):
gitee.com/metax-maca/cu-bridge/blob/master/include/cuda_pipeline_primitives.h
使用MXMACA原生的编程语言是支持maca_async.h功能的(可以异步拷贝),看cu-bridge源码,把替换memcpy_async宏替换成memcpy_sync了,此前给cu-bridge提了bug单,可以试试下载cu-bridge最新源码版本本地安装一下,看看该bug是否已修复。
支持的,只需要每个用户进程启动前配置一下环境变量(export MACA_MPS_MODE=1)就可以了,详细介绍见《曦云系列_通用计算GPU_运行时API编程指南》的“3.9. MPS多进程服务”。