Posts | WangYi | 沐曦开发者论坛

202422070201 王逸

LLM学习笔记

一、核心技术与架构

1. Transformer基石
- 自注意力机制：通过Query、Key、Value交互捕捉全局依赖，解决RNN长序列建模瓶颈。
- 位置编码：RoPE（旋转位置编码）在Llama等模型中广泛应用，支持长序列建模。
- 架构创新：
- MoE（专家混合）：Mistral 8x7B通过多个小模型组合实现高效推理，性能超越Llama 2 70B。
- 无限注意力（Infini-attention）：Gemini模型支持百万token上下文窗口，通过记忆复用提升长文本处理能力。
2. 训练与优化
- 分布式训练：
- 数据并行：将数据分片训练，适合小模型。
- Pipeline并行：按层拆分计算，优化显存占用。
- 推理加速：
- KV缓存：消除重复计算，提升生成效率。
- 量化技术：如INT4量化可将ChatGLM3部署在消费级显卡，模型体积压缩至400M。
- 幻觉缓解：通过引入位置编码减少位置偏差，结合RAG检索外部知识提升事实准确性。

二、关键技术扩展

1. RAG（检索增强生成）
- 流程：
1. 数据检索：使用DPR等向量模型从知识库提取相关文本。
2. 提示增强：将检索结果融入LLM输入，引导生成更准确内容。
- 应用场景：
- 金融：结合实时股价数据生成投资建议。
- 法律：检索法条判例确保回答权威性。
2. 多模态融合
- 扩散模型与LLM结合：
- DDPM（扩散模型）：通过去噪过程生成高质量图像，与LLM结合实现文本引导的多模态生成（如Show-o框架）。
- LDM（潜扩散模型）：在低维空间生成图像，降低计算成本，可与LLM联合优化多模态任务。
- 统一架构：Chameleon模型支持图文混合生成，通过早期融合模态实现跨模态内容输出。

三、工程实践与工具

1. 开源模型库
- Meta系列：LLaMA 2（70B参数）、OPT-175B（1750亿参数）支持非商业研究。
- 微调模型：Stanford Alpaca（基于LLaMA 7B）、Dolly（60亿参数低成本模型）适合指令跟随任务。
- 推理框架：TGI、FasterTransformer提升部署效率，支持多卡并行。
2. 开发工具链
- 知识库构建：anythingllm支持文档/网站导入，为本地模型注入领域知识。
- 训练框架：DeepSpeed支持混合精度训练与模型卸载，降低显存需求。

四、评估与挑战

1. 评估指标
- 基础能力：C-Eval（中文52学科测试）、MMLU（57任务多语言理解）。
- 推理能力：GSM8K（数学推理）、BBH（复杂多步推理）。
2. 核心挑战
- 效率瓶颈：传统注意力机制计算复杂度O(n²)，可通过稀疏注意力或硬件优化（如GPU-aware）缓解。
- 多模态统一：需平衡生成速度与质量，如Show-o框架通过自回归+扩散混合建模提升灵活性。

五、未来趋势

1. 架构创新：
- 扩散式语言模型：如DLM（Diffusion Language Model）实现十倍速推理，支持长文本生成。
- 任意模态生成：NExT-GPT通过适配器连接LLM与扩散解码器，支持文本、图像、视频混合输出。
2. 生态发展：
- 开源社区：Hugging Face、GitHub等平台推动模型民主化，降低开发者门槛。
- 垂直领域：结合RAG与领域知识库，实现金融、医疗等场景的精准应用。

总结：LLM学习需兼顾理论（Transformer原理、注意力机制）与实践（分布式训练、RAG集成），同时关注多模态融合与开源工具链。通过梳理技术脉络（从基础架构到前沿模型）、掌握工程方法论（训练优化、部署调优），可系统性构建LLM知识体系，为实际应用奠定基础。