大模型心得体会

202421060816
罗俣杰
参加这次开源大模型课程的时候，感觉之前对智算开发了解不多。不过当老师讲到沐曦公司的案例时，很多抽象的概念突然变得具体了。比如说，训练一个像DeepSeek-R1这样的大模型需要几百块GPU一起工作，这听起来就像科幻电影里的场景。但沐曦的工程师们用他们自研的曦云C500 GPU和MetaXLink技术，不仅让这个过程变得可行，还能把训练效率提高30%以上。他们的方法让我明白，原来技术问题不是靠堆硬件就能解决的，还得有巧妙的设计和优化。

在课程里，老师还提到沐曦的MXMACA软件工具特别厉害。这个软件能自动优化模型训练，节省显存，就像给电脑加了个智能管家。比如说，他们针对FlashMLA开源框架做了优化，用矩阵吸收算法减少显存占用，这样在长文本生成的时候就不会卡顿了。我后来查了一下，原来这个软件还能兼容主流的PyTorch框架，现有的代码可以直接迁移，对学生来说特别友好，不用重新学习新的编程语言。

让我印象深刻的是沐曦和联想合作的DeepSeek一体机。这个一体机预装了大模型，学校实验室就能用，特别方便。清华大学的学生用它来做实训，武汉的医院用它辅助诊断，感觉技术真的离我们很近。而且沐曦的液冷工作站散热特别好，噪音也小，放在教室旁边的机房里也不会吵到上课，这对学生来说太实用了。

另外，沐曦加入openKylin社区的事情也让我觉得很有意义。他们和其他公司一起开发国产操作系统的GPU驱动，这样以后我们用国产电脑也能流畅运行智算软件，不用依赖国外技术了。这让我明白，技术创新不仅需要硬实力，还要有开放合作的态度。

通过这次学习，我明白技术不只是书本上的公式，更是要解决实际问题。沐曦的例子让我看到，从芯片设计到实际应用，每一步都需要团队合作和创新。作为学生，我觉得这次课程让我对智算开发有了更立体的认识，也更有信心把课堂上学的东西用到实际中。未来，我希望能多参与类似的项目，像沐曦一样在技术浪潮里找到自己的位置。