本规划面向 AI 基础学习者(需具备 Python 基础、机器学习/深度学习入门知识),以「理论+实操」为核心,分 5 个阶段完成 RAG(检索增强生成)与 AGENT(智能体)的系统学习,总周期约 10-15 周(可根据个人基础调整节奏)。
前置知识补充:机器学习/深度学习入门核心内容与学习路线
以下为机器学习(ML)/深度学习(DL)入门的核心内容框架及分阶段学习路线,帮助快速夯实基础,为 RAG 与 AGENT 学习铺路。
(1)核心内容梳理
① 机器学习入门核心内容
核心概念:监督学习(回归/分类任务定义)、无监督学习(聚类/降维任务定义)、半监督/强化学习基础认知;过拟合/欠拟合的成因与解决思路(正则化、交叉验证);训练集/测试集/验证集的划分逻辑与意义。
经典算法:回归算法(线性回归、逻辑回归原理与应用场景);分类算法(决策树、随机森林、SVM、K-近邻(KNN)核心逻辑);聚类算法(K-Means 实现步骤与适用场景);降维算法(PCA 核心思想与用途)。
基础流程:数据预处理全流程(缺失值填充、异常值处理、特征编码(One-Hot/Label Encoding)、特征归一化/标准化);模型训练与调参(超参数优化方法:网格搜索、随机搜索);模型评估指标(分类:准确率、召回率、F1 值、ROC-AUC;回归:MSE、MAE、R²)。
核心工具:Scikit-learn 库(算法调用、数据预处理、模型评估全流程使用)。
② 深度学习入门核心内容
核心概念:神经网络基本结构(神经元、激活函数(Sigmoid/ReLU/Tanh)、隐藏层作用);损失函数(MSE、交叉熵)与优化器(SGD、Adam 原理与区别);梯度下降算法核心逻辑(批量梯度下降、随机梯度下降、小批量梯度下降);反向传播原理(误差反向传递与参数更新)。
基础模型:全连接神经网络(DNN,用于简单分类/回归任务);卷积神经网络(CNN 入门:卷积层、池化层作用,适用图像相关任务);循环神经网络(RNN/LSTM 入门:处理序列数据的核心逻辑,适用文本/时序数据)。
核心工具:TensorFlow/PyTorch 基础使用(搭建简单神经网络、数据加载(Dataset/DataLoader)、模型训练/测试流程)。
辅助知识:预训练模型与微调的基本概念(无需深入底层实现,了解其“迁移学习”核心思想);过拟合解决进阶方法(Dropout、早停策略)。
(2)分阶段学习路线(总周期 5-8 周)
① 阶段 1:机器学习基础(2-3 周)
学习内容:核心概念→经典算法原理→数据预处理流程→模型评估指标;
学习资源:吴恩达《机器学习》课程(斯坦福公开课/网易云课堂)、Scikit-learn 官方文档(入门教程)、《机器学习实战》(前 5 章);
实操任务:用 Scikit-learn 完成 2 个端到端案例——鸢尾花分类(KNN/随机森林)、波士顿房价预测(线性回归);对比不同算法的评估指标差异。
② 阶段 2:深度学习入门(2-3 周)
学习内容:神经网络基础结构→激活函数/损失函数/优化器→CNN/RNN 入门原理→TensorFlow/PyTorch 工具使用;
学习资源:李沐《动手学深度学习》(前 6 章,含代码实操)、PyTorch 官方入门教程、B站「深度学习入门实战」系列视频;
实操任务:用 PyTorch 搭建全连接神经网络实现 MNIST 手写数字分类;搭建简单 CNN 模型(如 LeNet-5 简化版)重复该分类任务,对比两者效果。
③ 阶段 3:实战巩固与衔接(1-2 周)
学习内容:回顾 ML/DL 核心逻辑,重点关注“数据→模型→评估”的闭环思维,衔接 LLM 相关基础(了解模型训练与微调的关联);
学习资源:LangChain 官方文档中“LLM 基础”章节、《深度学习进阶:自然语言处理》(前 2 章);
实操任务:用 Scikit-learn 实现文本简单分类(如情感分析,基于 TF-IDF 特征);尝试调用 PyTorch 预训练模型(如 BERT 简化版)完成相同任务,初步感受预训练模型的优势。
一、阶段一:基础预备(1-2 周)—— 夯实前置知识
核心目标:掌握 RAG 与 AGENT 依赖的基础技术,避免后续学习断层
1. 必学知识点
大语言模型(LLM)基础:LLM 核心原理(Transformer 架构、预训练/微调流程)、主流模型(GPT 系列、Llama 系列、通义千问、文心一言等)的特点与调用方式(API/本地部署)
向量数据库核心:向量表示原理、Embedding 模型(Sentence-BERT、OpenAI Embedding、通义 Embedding 等)、向量检索机制(近似最近邻 ANNS 算法:FAISS、HNSW 原理)
Python 工具链:常用 AI 库(LangChain、LlamaIndex 入门)、HTTP 请求(requests)、数据处理(pandas)、环境配置(conda/virtualenv)
基础检索原理:传统检索(倒排索引)与向量检索的区别、召回/排序的基本概念
2. 学习资源
课程:吴恩达《ChatGPT Prompt Engineering》(免费,掌握 LLM 调用与 Prompt 基础)、LangChain 官方文档 Tutorials(入门篇)
文档:向量数据库官方文档(Milvus/Pinecone 入门指南)、Sentence-BERT 官方 GitHub 教程
视频:B 站「李沐-Transformer 架构详解」(核心部分)、YouTube「LangChain for Beginners」
3. 实操任务(关键)
完成 3 个 LLM API 调用案例:文本生成、摘要、翻译(使用 OpenAI API 或国内通义千问 API)
使用 Sentence-BERT 生成文本向量,用 FAISS 搭建本地简易向量库,实现「文本查询→向量匹配→返回相似结果」
搭建 LangChain 基础环境,运行官方第一个 Demo(如 LLM 调用+简单 Prompt 模板)
二、阶段二:RAG 核心技术深入(3-4 周)—— 从原理到落地
核心目标:掌握 RAG 完整流程、关键组件优化、常见问题解决,能独立搭建基础 RAG 系统
1. 必学知识点
RAG 完整架构:文档加载(Loader)→ 文档分割(Splitting)→ 嵌入(Embedding)→ 向量存储(Vector Store)→ 检索(Retrieval)→ 生成(Generation)
关键组件优化:文档分割(递归字符分割、语义分割、按章节/段落分割的策略,分割粒度选择技巧)、检索策略(单轮检索 vs 多轮检索、混合检索(向量检索+传统检索)、重排(Reranking,如 Cross-Encoder))、嵌入模型选择(开源模型(Sentence-BERT、m3e-base)vs 闭源 API(OpenAI Embedding),领域适配(如法律/医疗嵌入模型))
RAG 评估指标:检索效果(Recall、Precision、MRR)、生成效果(BLEU、ROUGE、人工评估)、端到端效果(问答准确率)
常见问题解决:检索遗漏(召回率低)、检索噪声(精确率低)、上下文窗口限制、文档更新同步问题
进阶 RAG 方案:增量 RAG、多模态 RAG(图文混合检索)、知识图谱增强 RAG(KG-RAG)
2. 学习资源
核心论文:《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》(RAG 原始论文)、《DPR: Dense Passage Retrieval for Open-Domain Question Answering》(密集检索经典论文)
课程:LangChain 官方 RAG 专项教程、DeepLearning.AI 《Building Systems with the ChatGPT API》(RAG 章节)
开源项目:LangChain RAG 示例库、LlamaIndex RAG 入门 Demo、Milvus RAG 实战教程
工具文档:LangChain Retrieval 模块、LlamaIndex Query Engine、Pinecone RAG 最佳实践
3. 实操任务(分难度递进)
基础任务:用 LangChain + Pinecone(或 Milvus 本地版)搭建「PDF 文档问答 RAG 系统」。步骤:加载 1-2 份 PDF 文档→ 分割为 chunks→ 嵌入后存入向量库→ 实现问答接口(输入问题→ 检索相关 chunks→ 传给 LLM 生成答案)
优化任务:针对基础版 RAG 进行 2 项优化。优化 1:添加重排模块(使用 Cross-Encoder 对检索结果重排);优化 2:调整文档分割策略(对比不同分割粒度的检索效果)
进阶任务:实现「增量 RAG」—— 支持新增文档自动加入向量库,无需重新处理全部文档
三、阶段三:AGENT 核心技术深入(3-4 周)—— 从框架到能力
核心目标:掌握 AGENT 核心原理、框架使用、工具调用逻辑,能搭建基础智能体
1. 必学知识点
AGENT 定义与核心能力:智能体的本质(感知-决策-执行循环)、核心能力(规划(Planning)、记忆(Memory)、工具调用(Tool Use)、多智能体协作)
AGENT 核心组件:规划模块(任务分解(如 Chain of Thought、Tree of Thought)、子任务优先级排序)、记忆模块(短期记忆(当前会话)、长期记忆(历史交互/领域知识)、记忆存储与检索)、工具调用(工具注册、参数解析、调用结果处理、错误重试机制)
主流 AGENT 框架:LangChain Agent、AutoGPT、LangGraph、MetaGPT、AgentGPT
AGENT 典型应用场景:智能问答助手、代码生成助手、数据分析助手、自动化办公助手、多智能体协作(如产品经理+开发+测试智能体)
AGENT 常见问题:规划逻辑混乱、工具调用错误、记忆丢失、任务执行超时
2. 学习资源
核心论文:《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》(CoT 经典论文)、《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》(ToT 论文)、《Generative Agents: Interactive Simulacra of Human Behavior》(生成式智能体论文)
课程:LangChain Agent 官方教程、B站「LangGraph 入门到实战」、YouTube「Build AI Agents with LangChain」
开源项目:LangChain Agent 示例、MetaGPT 官方 Demo、AutoGPT 源码解读(核心模块)
文档:LangGraph 官方文档(状态管理与流程控制)、MetaGPT 开发指南
3. 实操任务(分难度递进)
基础任务:用 LangChain Agent 搭建「多工具调用助手」。功能:支持调用 3 种工具——天气查询 API、计算器工具、网页搜索工具(使用 SerpAPI);要求:输入复杂问题(如「北京明天天气怎么样?如果下雨,计算带伞出门比打车节省多少钱」),Agent 能自动分解任务、调用对应工具、整合结果生成答案
优化任务:为基础 Agent 添加记忆模块。功能:记住历史交互信息(如用户之前问过「上海天气」,后续问「那北京呢」,Agent 能理解上下文);实现:使用 LangChain 的 Memory 组件(如 ConversationBufferMemory)
进阶任务:用 LangGraph 搭建「多智能体协作系统」。角色:产品经理智能体(需求分析)、开发智能体(代码生成)、测试智能体(代码测试);流程:用户输入需求(如「写一个简单的加法计算器 Python 代码」)→ 产品经理智能体输出需求文档→ 开发智能体生成代码→ 测试智能体生成测试用例并执行→ 输出最终结果
四、阶段四:RAG + AGENT 融合与进阶(2-3 周)—— 落地复杂系统
核心目标:理解 RAG 与 AGENT 的协同逻辑,能搭建融合型系统,解决复杂场景问题
1. 必学知识点
RAG 与 AGENT 融合逻辑:RAG 作为 AGENT 的「外部知识库」,AGENT 作为 RAG 的「智能调度器」(如 Agent 决定何时需要检索、检索哪些内容、如何利用检索结果)
融合架构核心场景:场景 1(Agent 处理领域问题时,调用 RAG 检索领域文档,如法律智能体调用法律条文 RAG 库)、场景 2(Agent 规划任务时,通过 RAG 补充历史数据/规则,如自动化办公 Agent 调用公司流程 RAG 库)、场景 3(多智能体协作时,共享 RAG 知识库,如团队智能体共享项目文档 RAG 库)
融合系统优化技巧:Agent 检索策略优化(如基于问题类型选择检索方式)、RAG 检索结果的 Agent 二次处理(如过滤噪声、补充上下文)
工业级落地考量:性能优化(检索速度、生成延迟)、可扩展性(新增工具/知识库)、稳定性(错误处理、降级策略)、安全性(敏感信息过滤)
2. 学习资源
案例:LangChain 官方「RAG + Agent」示例、LlamaIndex 「Query Engine + Agent」教程、Milvus 「向量数据库 + 智能体」落地案例
博客:《Building a RAG-Powered Agent with LangChain》、《How to Combine RAG and Agents for Better LLM Applications》
开源项目:LangChain 「RAG-Agent」Demo、MetaGPT 结合 RAG 扩展案例
3. 实操任务(综合项目)
项目主题:「企业内部智能问答助手」(RAG + Agent 融合系统)
核心功能:① 知识库(企业规章制度、员工手册、产品文档,通过 RAG 构建,支持增量更新);② Agent 能力(自动判断问题类型:是否需要检索知识库;多工具调用:支持检索知识库、生成 Excel 报表、发送邮件通知;记忆功能:记住员工历史问题,关联上下文)
技术栈:LangChain/LlamaIndex(框架)、Milvus/Pinecone(向量库)、OpenAI/Llama 3(LLM)、Python(开发)
五、阶段五:总结复盘与拓展(1 周)—— 深化理解与前沿追踪
核心目标:梳理知识体系,解决遗留问题,追踪前沿动态
1. 总结复盘
梳理知识图谱:RAG 核心流程、AGENT 核心组件、两者融合逻辑,形成个人笔记/思维导图
复盘实操问题:整理学习过程中遇到的关键问题(如 RAG 检索效果差、Agent 规划逻辑混乱)及解决方案
优化项目代码:重构综合项目代码,提升可读性、可扩展性(如添加注释、封装工具类、优化错误处理)
2. 前沿拓展
RAG 前沿:Retrieval-Augmented Generation 2.0、神经检索模型(如 ColBERT、Contriever)、RAG 与知识图谱的深度融合
AGENT 前沿:多智能体博弈、AGENT 与强化学习结合(RLHF for Agent)、具身智能体(Embodied Agent)
追踪渠道:GitHub Trending(RAG/Agent 相关项目)、arXiv(最新论文)、行业博客(LangChain Blog、Pinecone Blog)、技术会议(NeurIPS、ICML 相关专题)
六、学习小贴士
优先实操:RAG 和 AGENT 都是偏应用的技术,不要只看理论,每学一个知识点就动手写 Demo,避免「眼会手不会」
工具选择:入门阶段优先用 LangChain(生态完善、文档丰富),熟悉后可尝试 MetaGPT、LangGraph 等进阶框架
资源取舍:论文优先看核心思想(无需逐字精读),重点关注开源项目的实现逻辑和官方文档的最佳实践
社区交流:遇到问题可在 LangChain 论坛、GitHub Issues、Stack Overflow 提问,关注国内 AI 社区(如 DataWhale、AI 前线)的 RAG/Agent 专题