Posts | yololyx | 沐曦开发者论坛

作为一名非cs专业的学生，此次文化交流月的学习让我感受到大模型技术与GPU算力相结合带来的巨大潜力，更意识到技术进步需要协作创新，开源“打破壁垒、加速进步”的意义也让非专业人士有了更多学习的机会。以下分享几个课程学习概念：
1）什么是LLM
LLM（Large Language Model，大语言模型）是一种基于深度学习的自然语言处理模型，通过海量文本数据进行训练，能够理解和生成人类语言。LLM的核心架构通常基于Transformer，具备强大的上下文理解和生成能力。
训练：Transformer架构的大模型在经过海量文本数据预训练和QA微调后学习到语言的统计规律和语义关系。
推理：在输入文本后，LLM通过概率分布预测下一个词，逐步生成连贯的文本。
2）LLM擅长做什么
应用示例：
回答系统：回答用户问题（如ChatGPT、Bing Chat）；
文本生成：自动生成文章、故事、代码等（如ChatGPT、GitHub Copilot）；
文生图、文生视频：作曲、作画、拍电影等（如Sora、阶跃智算）；
机器翻译：实现多种语言之间的高质量翻译（如Google Translate）；
内容摘要：从长文本中提取关键信息生成摘要；
情感分析：分析文本的情感倾向（如评论、社交媒体内容）；
代码生成与调试：帮助开发者编写和优化代码（如Github Copilot）。
此外，“学会提问”是一门“艺术”。通过提示工程，学会与机器沟通。
3）RAG vs 微调（Fine-Tuning）
RAG：非参数记忆，利用外部知识库提供实时更新的信息。能够处理知识密集型任务，提供准确的事实性回答。提供检索增强，可以生成更多样化的内容。
适用于需要结合最新信息和实时数据的任务：开放域回答、实时新闻摘要。
其优势在于动态知识更新，处理长尾知识问题。但依赖于外部知识的质量和覆盖范围。
Fine-Tuning：参数记忆，通过在特定任务数据上训练，模型可以更好地适应该任务。通常需要大量标注数据来进行有效微调。微调后的模型可能过拟合，导致泛化能力下降。
适用于数据可用且需要模型高度专业化的任务：特定领域的文本分类、情感分析、文本生成等。
其优势在于模型性能针对特定任务优化。但需要大量的标注数据，且对新任务的适应性较差。