202422070201 王逸
LLM学习笔记
一、核心技术与架构
1. Transformer基石
- 自注意力机制:通过Query、Key、Value交互捕捉全局依赖,解决RNN长序列建模瓶颈。
- 位置编码:RoPE(旋转位置编码)在Llama等模型中广泛应用,支持长序列建模。
- 架构创新:
- MoE(专家混合):Mistral 8x7B通过多个小模型组合实现高效推理,性能超越Llama 2 70B。
- 无限注意力(Infini-attention):Gemini模型支持百万token上下文窗口,通过记忆复用提升长文本处理能力。
2. 训练与优化
- 分布式训练:
- 数据并行:将数据分片训练,适合小模型。
- Pipeline并行:按层拆分计算,优化显存占用。
- 推理加速:
- KV缓存:消除重复计算,提升生成效率。
- 量化技术:如INT4量化可将ChatGLM3部署在消费级显卡,模型体积压缩至400M。
- 幻觉缓解:通过引入位置编码减少位置偏差,结合RAG检索外部知识提升事实准确性。
二、关键技术扩展
1. RAG(检索增强生成)
- 流程:
1. 数据检索:使用DPR等向量模型从知识库提取相关文本。
2. 提示增强:将检索结果融入LLM输入,引导生成更准确内容。
- 应用场景:
- 金融:结合实时股价数据生成投资建议。
- 法律:检索法条判例确保回答权威性。
2. 多模态融合
- 扩散模型与LLM结合:
- DDPM(扩散模型):通过去噪过程生成高质量图像,与LLM结合实现文本引导的多模态生成(如Show-o框架)。
- LDM(潜扩散模型):在低维空间生成图像,降低计算成本,可与LLM联合优化多模态任务。
- 统一架构:Chameleon模型支持图文混合生成,通过早期融合模态实现跨模态内容输出。
三、工程实践与工具
1. 开源模型库
- Meta系列:LLaMA 2(70B参数)、OPT-175B(1750亿参数)支持非商业研究。
- 微调模型:Stanford Alpaca(基于LLaMA 7B)、Dolly(60亿参数低成本模型)适合指令跟随任务。
- 推理框架:TGI、FasterTransformer提升部署效率,支持多卡并行。
2. 开发工具链
- 知识库构建:anythingllm支持文档/网站导入,为本地模型注入领域知识。
- 训练框架:DeepSpeed支持混合精度训练与模型卸载,降低显存需求。
四、评估与挑战
1. 评估指标
- 基础能力:C-Eval(中文52学科测试)、MMLU(57任务多语言理解)。
- 推理能力:GSM8K(数学推理)、BBH(复杂多步推理)。
2. 核心挑战
- 效率瓶颈:传统注意力机制计算复杂度O(n²),可通过稀疏注意力或硬件优化(如GPU-aware)缓解。
- 多模态统一:需平衡生成速度与质量,如Show-o框架通过自回归+扩散混合建模提升灵活性。
五、未来趋势
1. 架构创新:
- 扩散式语言模型:如DLM(Diffusion Language Model)实现十倍速推理,支持长文本生成。
- 任意模态生成:NExT-GPT通过适配器连接LLM与扩散解码器,支持文本、图像、视频混合输出。
2. 生态发展:
- 开源社区:Hugging Face、GitHub等平台推动模型民主化,降低开发者门槛。
- 垂直领域:结合RAG与领域知识库,实现金融、医疗等场景的精准应用。
总结:LLM学习需兼顾理论(Transformer原理、注意力机制)与实践(分布式训练、RAG集成),同时关注多模态融合与开源工具链。通过梳理技术脉络(从基础架构到前沿模型)、掌握工程方法论(训练优化、部署调优),可系统性构建LLM知识体系,为实际应用奠定基础。