Posts | z_gy | 沐曦开发者论坛

通过学习本课程，我对开源大模型应用有了更为深刻的认识，并对开源大模型应用软件工程进行实践，我将从以下五个方面谈谈我的学习心得。
一、检索增强生成（RAG）技术与大语言模型（LLM）
检索增强生成（RAG）通过知识入库-向量检索-融合生成三步增强大语言模型能力。首先，将各类专业文档导入系统，利用文本分词器拆分成适宜片段，再通过嵌入模型将其转化为嵌入向量，存储于向量数据库。当用户提问时，系统依据向量相似度快速检索相关知识，与问题一同作为提示输入大语言模型。这样，大语言模型可以准确输出，更具有时效性，能够有效解决知识陈旧的问题。
在检索增强生成（RAG）的辅助下，大语言模型（LLM）可以应用于问答系统，用户输入文本信息，大模型高效与准确生成问题答案。目前，大语言模型技术正加速向多模态融合发展，将实现对文本、图像、音频等多形式的输入信息的协同处理。

二、开源大语言模型（LLM）调用
1. 原生API调用：基于requests库发送HTTP请求，需在请求头中配置API Key（从Maas平台自己的账号获取，如gitee智算与阿里百炼）完成身份认证，同时可灵活调整参数，如可通过temperature控制回答随机性、max_tokens限定长度。适合对调用流程有深度定制需求的开发场景，可结合异步请求、重试机制等优化性能；
2. SDK封装调用：Open智算 Python SDK等工具将复杂流程简化为函数接口，提供类型安全设计、函数调用等高级特性，大幅降低集成难度，适合快速开发的场景。

三、智能体架构（Lilian Weng框架）与模型上下文协议（MCP）协同机制
智能体架构（Lilian Weng框架）包括规划模块，将复杂任务拆解为可执行子任务，将任务拆解后以不同顺序执行；记忆模块，分为短期与长期记忆，短期记忆缓存当前对话内容，确保多轮交互连贯，长期记忆存储专业知识，为决策提供支撑；工具调用，基于任务需求动态连接外部工具，例如调用天气信息、调用语法检查器、或调用计算器等；大语言模型（LLM）模块，作为智能体的核心，基于规划模块的任务拆解、记忆模块的知识储备，生成决策策略，驱动工具调用与任务执行，实现从分析到行动的完整链路。
模型上下文协议（MCP）为多智能体交互制定统一标准。其消息格式包含头部（指令类型、发送/接收方标识等元数据）与主体（工具调用参数、任务内容）。此外，MCP还支持服务注册发现、参数标准化与错误码的统一，保障不同智能体、工具间的高效协作。

四、应用开发框架与平台
LangCh智算n：以组件化架构著称的智算应用开发框架，可用于复杂功能的应用开发，提供大语言模型适配、提示工程、链结构等核心能力。其中，SequentialCh智算n可将问题分类、知识检索、答案生成等模块串联，实现复杂任务自动化；Agent系统赋予智能体自主选择工具的能力，如遇到“查询诺贝尔奖得主”需求时，自动调用搜索引擎获取信息。
Dify.智算：用户无需编写代码的低代码平台，通过可视化拖拽界面即可快速搭建应用。平台内置知识库管理、API集成等常用组件，适合快速开发、部署与运维监控。

五、前沿技术突破
扩散模型：基于去噪扩散概率模型（DDPM）的潜在扩散模型（LDM，如Stable Diffusion）实现文本生成高清图像，通过在潜在空间高效计算，先构图再映射至像素空间。扩散模型应用在视频领域，可通过建模帧间时间依赖关系，生成连贯动画，为影视制作、广告设计提供新工具。
具身智能：结合强化学习，赋予机器人自主决策能力。例如，可通过近端策略优化（PPO）算法执行动作，根据环境奖励不断优化策略，实现环境自适应。