2025-12-14

RAG 与 AGENT 系统学习规划

本规划面向 AI 基础学习者（需具备 Python 基础、机器学习/深度学习入门知识），以「理论+实操」为核心，分 5 个阶段完成 RAG（检索增强生成）与 AGENT（智能体）的系统学习，总周期约 10-15 周（可根据个人基础调整节奏）。

前置知识补充：机器学习/深度学习入门核心内容与学习路线

以下为机器学习（ML）/深度学习（DL）入门的核心内容框架及分阶段学习路线，帮助快速夯实基础，为 RAG 与 AGENT 学习铺路。

（1）核心内容梳理

① 机器学习入门核心内容

核心概念：监督学习（回归/分类任务定义）、无监督学习（聚类/降维任务定义）、半监督/强化学习基础认知；过拟合/欠拟合的成因与解决思路（正则化、交叉验证）；训练集/测试集/验证集的划分逻辑与意义。
经典算法：回归算法（线性回归、逻辑回归原理与应用场景）；分类算法（决策树、随机森林、SVM、K-近邻（KNN）核心逻辑）；聚类算法（K-Means 实现步骤与适用场景）；降维算法（PCA 核心思想与用途）。
基础流程：数据预处理全流程（缺失值填充、异常值处理、特征编码（One-Hot/Label Encoding）、特征归一化/标准化）；模型训练与调参（超参数优化方法：网格搜索、随机搜索）；模型评估指标（分类：准确率、召回率、F1 值、ROC-AUC；回归：MSE、MAE、R²）。
核心工具：Scikit-learn 库（算法调用、数据预处理、模型评估全流程使用）。

② 深度学习入门核心内容

核心概念：神经网络基本结构（神经元、激活函数（Sigmoid/ReLU/Tanh）、隐藏层作用）；损失函数（MSE、交叉熵）与优化器（SGD、Adam 原理与区别）；梯度下降算法核心逻辑（批量梯度下降、随机梯度下降、小批量梯度下降）；反向传播原理（误差反向传递与参数更新）。
基础模型：全连接神经网络（DNN，用于简单分类/回归任务）；卷积神经网络（CNN 入门：卷积层、池化层作用，适用图像相关任务）；循环神经网络（RNN/LSTM 入门：处理序列数据的核心逻辑，适用文本/时序数据）。
核心工具：TensorFlow/PyTorch 基础使用（搭建简单神经网络、数据加载（Dataset/DataLoader）、模型训练/测试流程）。
辅助知识：预训练模型与微调的基本概念（无需深入底层实现，了解其“迁移学习”核心思想）；过拟合解决进阶方法（Dropout、早停策略）。

（2）分阶段学习路线（总周期 5-8 周）

① 阶段 1：机器学习基础（2-3 周）

学习内容：核心概念→经典算法原理→数据预处理流程→模型评估指标；
学习资源：吴恩达《机器学习》课程（斯坦福公开课/网易云课堂）、Scikit-learn 官方文档（入门教程）、《机器学习实战》（前 5 章）；
实操任务：用 Scikit-learn 完成 2 个端到端案例——鸢尾花分类（KNN/随机森林）、波士顿房价预测（线性回归）；对比不同算法的评估指标差异。

② 阶段 2：深度学习入门（2-3 周）

学习内容：神经网络基础结构→激活函数/损失函数/优化器→CNN/RNN 入门原理→TensorFlow/PyTorch 工具使用；
学习资源：李沐《动手学深度学习》（前 6 章，含代码实操）、PyTorch 官方入门教程、B站「深度学习入门实战」系列视频；
实操任务：用 PyTorch 搭建全连接神经网络实现 MNIST 手写数字分类；搭建简单 CNN 模型（如 LeNet-5 简化版）重复该分类任务，对比两者效果。

③ 阶段 3：实战巩固与衔接（1-2 周）

学习内容：回顾 ML/DL 核心逻辑，重点关注“数据→模型→评估”的闭环思维，衔接 LLM 相关基础（了解模型训练与微调的关联）；
学习资源：LangChain 官方文档中“LLM 基础”章节、《深度学习进阶：自然语言处理》（前 2 章）；
实操任务：用 Scikit-learn 实现文本简单分类（如情感分析，基于 TF-IDF 特征）；尝试调用 PyTorch 预训练模型（如 BERT 简化版）完成相同任务，初步感受预训练模型的优势。

一、阶段一：基础预备（1-2 周）—— 夯实前置知识

核心目标：掌握 RAG 与 AGENT 依赖的基础技术，避免后续学习断层

1. 必学知识点

大语言模型（LLM）基础：LLM 核心原理（Transformer 架构、预训练/微调流程）、主流模型（GPT 系列、Llama 系列、通义千问、文心一言等）的特点与调用方式（API/本地部署）
向量数据库核心：向量表示原理、Embedding 模型（Sentence-BERT、OpenAI Embedding、通义 Embedding 等）、向量检索机制（近似最近邻 ANNS 算法：FAISS、HNSW 原理）
Python 工具链：常用 AI 库（LangChain、LlamaIndex 入门）、HTTP 请求（requests）、数据处理（pandas）、环境配置（conda/virtualenv）
基础检索原理：传统检索（倒排索引）与向量检索的区别、召回/排序的基本概念

2. 学习资源

课程：吴恩达《ChatGPT Prompt Engineering》（免费，掌握 LLM 调用与 Prompt 基础）、LangChain 官方文档 Tutorials（入门篇）
文档：向量数据库官方文档（Milvus/Pinecone 入门指南）、Sentence-BERT 官方 GitHub 教程
视频：B 站「李沐-Transformer 架构详解」（核心部分）、YouTube「LangChain for Beginners」

3. 实操任务（关键）

完成 3 个 LLM API 调用案例：文本生成、摘要、翻译（使用 OpenAI API 或国内通义千问 API）
使用 Sentence-BERT 生成文本向量，用 FAISS 搭建本地简易向量库，实现「文本查询→向量匹配→返回相似结果」
搭建 LangChain 基础环境，运行官方第一个 Demo（如 LLM 调用+简单 Prompt 模板）

二、阶段二：RAG 核心技术深入（3-4 周）—— 从原理到落地

核心目标：掌握 RAG 完整流程、关键组件优化、常见问题解决，能独立搭建基础 RAG 系统

1. 必学知识点

RAG 完整架构：文档加载（Loader）→ 文档分割（Splitting）→ 嵌入（Embedding）→ 向量存储（Vector Store）→ 检索（Retrieval）→ 生成（Generation）
关键组件优化：文档分割（递归字符分割、语义分割、按章节/段落分割的策略，分割粒度选择技巧）、检索策略（单轮检索 vs 多轮检索、混合检索（向量检索+传统检索）、重排（Reranking，如 Cross-Encoder））、嵌入模型选择（开源模型（Sentence-BERT、m3e-base）vs 闭源 API（OpenAI Embedding），领域适配（如法律/医疗嵌入模型））
RAG 评估指标：检索效果（Recall、Precision、MRR）、生成效果（BLEU、ROUGE、人工评估）、端到端效果（问答准确率）
常见问题解决：检索遗漏（召回率低）、检索噪声（精确率低）、上下文窗口限制、文档更新同步问题
进阶 RAG 方案：增量 RAG、多模态 RAG（图文混合检索）、知识图谱增强 RAG（KG-RAG）

2. 学习资源

核心论文：《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》（RAG 原始论文）、《DPR: Dense Passage Retrieval for Open-Domain Question Answering》（密集检索经典论文）
课程：LangChain 官方 RAG 专项教程、DeepLearning.AI 《Building Systems with the ChatGPT API》（RAG 章节）
开源项目：LangChain RAG 示例库、LlamaIndex RAG 入门 Demo、Milvus RAG 实战教程
工具文档：LangChain Retrieval 模块、LlamaIndex Query Engine、Pinecone RAG 最佳实践

3. 实操任务（分难度递进）

基础任务：用 LangChain + Pinecone（或 Milvus 本地版）搭建「PDF 文档问答 RAG 系统」。步骤：加载 1-2 份 PDF 文档→ 分割为 chunks→ 嵌入后存入向量库→ 实现问答接口（输入问题→ 检索相关 chunks→ 传给 LLM 生成答案）
优化任务：针对基础版 RAG 进行 2 项优化。优化 1：添加重排模块（使用 Cross-Encoder 对检索结果重排）；优化 2：调整文档分割策略（对比不同分割粒度的检索效果）
进阶任务：实现「增量 RAG」—— 支持新增文档自动加入向量库，无需重新处理全部文档

三、阶段三：AGENT 核心技术深入（3-4 周）—— 从框架到能力

核心目标：掌握 AGENT 核心原理、框架使用、工具调用逻辑，能搭建基础智能体

1. 必学知识点

AGENT 定义与核心能力：智能体的本质（感知-决策-执行循环）、核心能力（规划（Planning）、记忆（Memory）、工具调用（Tool Use）、多智能体协作）
AGENT 核心组件：规划模块（任务分解（如 Chain of Thought、Tree of Thought）、子任务优先级排序）、记忆模块（短期记忆（当前会话）、长期记忆（历史交互/领域知识）、记忆存储与检索）、工具调用（工具注册、参数解析、调用结果处理、错误重试机制）
主流 AGENT 框架：LangChain Agent、AutoGPT、LangGraph、MetaGPT、AgentGPT
AGENT 典型应用场景：智能问答助手、代码生成助手、数据分析助手、自动化办公助手、多智能体协作（如产品经理+开发+测试智能体）
AGENT 常见问题：规划逻辑混乱、工具调用错误、记忆丢失、任务执行超时

2. 学习资源

核心论文：《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》（CoT 经典论文）、《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》（ToT 论文）、《Generative Agents: Interactive Simulacra of Human Behavior》（生成式智能体论文）
课程：LangChain Agent 官方教程、B站「LangGraph 入门到实战」、YouTube「Build AI Agents with LangChain」
开源项目：LangChain Agent 示例、MetaGPT 官方 Demo、AutoGPT 源码解读（核心模块）
文档：LangGraph 官方文档（状态管理与流程控制）、MetaGPT 开发指南

3. 实操任务（分难度递进）

基础任务：用 LangChain Agent 搭建「多工具调用助手」。功能：支持调用 3 种工具——天气查询 API、计算器工具、网页搜索工具（使用 SerpAPI）；要求：输入复杂问题（如「北京明天天气怎么样？如果下雨，计算带伞出门比打车节省多少钱」），Agent 能自动分解任务、调用对应工具、整合结果生成答案
优化任务：为基础 Agent 添加记忆模块。功能：记住历史交互信息（如用户之前问过「上海天气」，后续问「那北京呢」，Agent 能理解上下文）；实现：使用 LangChain 的 Memory 组件（如 ConversationBufferMemory）
进阶任务：用 LangGraph 搭建「多智能体协作系统」。角色：产品经理智能体（需求分析）、开发智能体（代码生成）、测试智能体（代码测试）；流程：用户输入需求（如「写一个简单的加法计算器 Python 代码」）→ 产品经理智能体输出需求文档→ 开发智能体生成代码→ 测试智能体生成测试用例并执行→ 输出最终结果

四、阶段四：RAG + AGENT 融合与进阶（2-3 周）—— 落地复杂系统

核心目标：理解 RAG 与 AGENT 的协同逻辑，能搭建融合型系统，解决复杂场景问题

1. 必学知识点

RAG 与 AGENT 融合逻辑：RAG 作为 AGENT 的「外部知识库」，AGENT 作为 RAG 的「智能调度器」（如 Agent 决定何时需要检索、检索哪些内容、如何利用检索结果）
融合架构核心场景：场景 1（Agent 处理领域问题时，调用 RAG 检索领域文档，如法律智能体调用法律条文 RAG 库）、场景 2（Agent 规划任务时，通过 RAG 补充历史数据/规则，如自动化办公 Agent 调用公司流程 RAG 库）、场景 3（多智能体协作时，共享 RAG 知识库，如团队智能体共享项目文档 RAG 库）
融合系统优化技巧：Agent 检索策略优化（如基于问题类型选择检索方式）、RAG 检索结果的 Agent 二次处理（如过滤噪声、补充上下文）
工业级落地考量：性能优化（检索速度、生成延迟）、可扩展性（新增工具/知识库）、稳定性（错误处理、降级策略）、安全性（敏感信息过滤）

2. 学习资源

案例：LangChain 官方「RAG + Agent」示例、LlamaIndex 「Query Engine + Agent」教程、Milvus 「向量数据库 + 智能体」落地案例
博客：《Building a RAG-Powered Agent with LangChain》、《How to Combine RAG and Agents for Better LLM Applications》
开源项目：LangChain 「RAG-Agent」Demo、MetaGPT 结合 RAG 扩展案例

3. 实操任务（综合项目）

项目主题：「企业内部智能问答助手」（RAG + Agent 融合系统）
核心功能：① 知识库（企业规章制度、员工手册、产品文档，通过 RAG 构建，支持增量更新）；② Agent 能力（自动判断问题类型：是否需要检索知识库；多工具调用：支持检索知识库、生成 Excel 报表、发送邮件通知；记忆功能：记住员工历史问题，关联上下文）
技术栈：LangChain/LlamaIndex（框架）、Milvus/Pinecone（向量库）、OpenAI/Llama 3（LLM）、Python（开发）

五、阶段五：总结复盘与拓展（1 周）—— 深化理解与前沿追踪

核心目标：梳理知识体系，解决遗留问题，追踪前沿动态

1. 总结复盘

梳理知识图谱：RAG 核心流程、AGENT 核心组件、两者融合逻辑，形成个人笔记/思维导图
复盘实操问题：整理学习过程中遇到的关键问题（如 RAG 检索效果差、Agent 规划逻辑混乱）及解决方案
优化项目代码：重构综合项目代码，提升可读性、可扩展性（如添加注释、封装工具类、优化错误处理）

2. 前沿拓展

RAG 前沿：Retrieval-Augmented Generation 2.0、神经检索模型（如 ColBERT、Contriever）、RAG 与知识图谱的深度融合
AGENT 前沿：多智能体博弈、AGENT 与强化学习结合（RLHF for Agent）、具身智能体（Embodied Agent）
追踪渠道：GitHub Trending（RAG/Agent 相关项目）、arXiv（最新论文）、行业博客（LangChain Blog、Pinecone Blog）、技术会议（NeurIPS、ICML 相关专题）

六、学习小贴士

优先实操：RAG 和 AGENT 都是偏应用的技术，不要只看理论，每学一个知识点就动手写 Demo，避免「眼会手不会」
工具选择：入门阶段优先用 LangChain（生态完善、文档丰富），熟悉后可尝试 MetaGPT、LangGraph 等进阶框架
资源取舍：论文优先看核心思想（无需逐字精读），重点关注开源项目的实现逻辑和官方文档的最佳实践
社区交流：遇到问题可在 LangChain 论坛、GitHub Issues、Stack Overflow 提问，关注国内 AI 社区（如 DataWhale、AI 前线）的 RAG/Agent 专题