尊敬的开发者您好,vllm-omni暂不支持,diffusers.training可用于推理
尊敬的开发者您好,vllm-omni暂不支持,diffusers.training可用于推理
尊敬的开发者您好,请给出您所提到模型的魔搭链接
尊敬的开发者您好,请减少模型上下文长度尝试
尊敬的开发者您好,Qwen3-32B属于Dense模型,四卡推理会造成通信延迟、tp4单卡利用率低从而造成四卡推理性能不如双卡性能。
尊敬的开发者您好,请参考developer.metax-tech.com/forum/t/fa-tie-qian-bi-kan-jing-xiang-shi-yong-wen-ti-ti-wen-mo-ban/267/ 详细描述您的操作步骤以及详细日志
尊敬的开发者您好,Qwen3-32B不推荐使用4卡推理,4卡推理会造成资源浪费,建议每两卡开启一个推理服务,提升GPU利用率
尊敬的开发者您好,应该是硬件问题,请通过GPU购买渠道申请售后
尊敬的开发者您好,请通过GPU购买渠道申请售后支持
尊敬的开发者您好,已集成在MCCL,请在文档中心搜索MCCL测试相关文档
尊敬的开发者您好,可以支持,Qwen3.6-27B-W8A8www.modelscope.cn/models/metax-tech/Qwen3.6-27B-W8A8
尊敬的开发者您好,SGPU不支持持久化,可以通过mx-smi开机自动配置
尊敬的开发者您好,请先确保两台服务器单机八卡mccl测试没有问题,再测试双机
尊敬的开发者您好,请使用CUDA_VISIBLE_DEVICES
尊敬的开发者您好,是CUDA_VISIBLE_DEVICES
尊敬的开发者您好,按照实际GPU ID填写,export CUDA_VISIBLE_DEVICES=0,1,2,3,执行bash mccl.sh 2或者4,进行交叉验证,确认是哪几个GPU通信问题。确认后,请进行服务器下电重新插拔GPU尝试。