您好,近日看到有发文显示GLM-5和Qwen3.5系列大模型可以沐曦曦云C500 GPU上运行,请问应该用什么推理软件?因为我看当前提供的arm版vLLM还是0.11版本,不支持运行这两个系列的模型
您好,近日看到有发文显示GLM-5和Qwen3.5系列大模型可以沐曦曦云C500 GPU上运行,请问应该用什么推理软件?因为我看当前提供的arm版vLLM还是0.11版本,不支持运行这两个系列的模型
本人使用鲲鹏920新型号CPU+一张曦云C500 NPU,运行siglip模型。对于同一张图片,在裸机上使用纯CPU上推理时延约1037ms,但是使用NPU推理时延约2837ms,在容器(maca-torch2.4-py310-mc3.3.0.4-kylinv10-arm64)内使用NPU推理时延约2616ms;但使用英伟达4090推理时延约310ms。使用NPU推理的性能弱于使用CPU推理,这性能明显不正常,请问该如何排查和解决?其中驱动版本是3.5.3.11,sdk版本是3.5.3.17,cu-bridge用的是master分支代码。
我下载了maca-pytorch2.8-py312-3.5.3.9-aarch64.tar这个版本的安装包后,在裸机上创建conda环境并安装了pytorch等安装包后导入pytorch时有如下报错File "<stdin>", line 1, in <module>
File "/home/lv/miniconda3/envs/python312/lib/python3.12/site-packages/torch/init.py", line 421, in <module>
from torch._C import * # noqa: F403
^^^^^^^^^^^^^^^^^^^^^^
ImportError: libmxomp.so: cannot open shared object file: No such file or directory
请问该如何解决?我已经安装了2.14.27版本的驱动和2.32.0.9版本的MACA sdk。
您好,我在使用容器中的vllm0.8.2部署大模型进行推理时,无法采集profiler数据——设置VLLM_TORCH_PROFILER_DIR环境变量后会卡死。请问该如何解决?