5. 附录

5.1. 调试信息

5.1.1. 共享内存

为了进程或线程间通信,MCCL会在 /dev/shm 中创建共享内存。因而操作系统对共享内存的限制需要相应地增加。 如果共享内存不够,MCCL会在初始化时失败。增加共享内存大小可参考操作系统相关文档。

Docker容器的默认配置会限制共享内存和固页内存的大小。当在Docker容器中运行MCCL应用程序时,需调整共享内存大小以确保程序可以成功运行。 例如,在Docker运行时可以添加如下命令:

--shm-size=1g --ulimit memlock=-1

5.2. 术语/缩略语

术语/缩略语

全称

说明

Docker

一个开源的应用容器引擎

MCCL

Metax Collective Communications Library

沐曦提供GPU间通信原语的库

MetaXLink

沐曦GPU D2D接口总线

MPI

Message Passing Interface

消息传递接口

MXMACA

MetaX Advanced Compute Architecture

沐曦推出的GPU软件栈,包含了沐曦GPU的底层驱动、编译器、数学库及整套软件工具套件

socket

网络编程标准接口,套接字