• Members 2 posts
    2025年7月4日 16:59

    202421060816
    罗俣杰
    参加这次开源大模型课程的时候,感觉之前对智算开发了解不多。不过当老师讲到沐曦公司的案例时,很多抽象的概念突然变得具体了。比如说,训练一个像DeepSeek-R1这样的大模型需要几百块GPU一起工作,这听起来就像科幻电影里的场景。但沐曦的工程师们用他们自研的曦云C500 GPU和MetaXLink技术,不仅让这个过程变得可行,还能把训练效率提高30%以上。他们的方法让我明白,原来技术问题不是靠堆硬件就能解决的,还得有巧妙的设计和优化。

    在课程里,老师还提到沐曦的MXMACA软件工具特别厉害。这个软件能自动优化模型训练,节省显存,就像给电脑加了个智能管家。比如说,他们针对FlashMLA开源框架做了优化,用矩阵吸收算法减少显存占用,这样在长文本生成的时候就不会卡顿了。我后来查了一下,原来这个软件还能兼容主流的PyTorch框架,现有的代码可以直接迁移,对学生来说特别友好,不用重新学习新的编程语言。

    让我印象深刻的是沐曦和联想合作的DeepSeek一体机。这个一体机预装了大模型,学校实验室就能用,特别方便。清华大学的学生用它来做实训,武汉的医院用它辅助诊断,感觉技术真的离我们很近。而且沐曦的液冷工作站散热特别好,噪音也小,放在教室旁边的机房里也不会吵到上课,这对学生来说太实用了。

    另外,沐曦加入openKylin社区的事情也让我觉得很有意义。他们和其他公司一起开发国产操作系统的GPU驱动,这样以后我们用国产电脑也能流畅运行智算软件,不用依赖国外技术了。这让我明白,技术创新不仅需要硬实力,还要有开放合作的态度。

    通过这次学习,我明白技术不只是书本上的公式,更是要解决实际问题。沐曦的例子让我看到,从芯片设计到实际应用,每一步都需要团队合作和创新。作为学生,我觉得这次课程让我对智算开发有了更立体的认识,也更有信心把课堂上学的东西用到实际中。未来,我希望能多参与类似的项目,像沐曦一样在技术浪潮里找到自己的位置。