AI技术术语解释

RAG、Embedding、微调:常见 AI 技术名词一次讲清

很多 AI 术语之所以让人困惑,不是因为它们太难,而是因为它们常被并列提起却分属完全不同的层次。

2026年04月01日
11分钟

当你开始读 AI 产品介绍或工程方案时,很快就会碰到一串高频词:RAG、Embedding、Fine-tuning。它们经常一起出现,于是很多人误以为它们是同类概念。其实不是。

Section 01先给结论:这三个词分别在解决什么问题

如果只用一句话概括:

  • **Embedding** 解决的是“怎么把内容变成可以比较的表示”
  • **RAG** 解决的是“怎么把外部知识接进来再回答”
  • **微调** 解决的是“怎么让模型更像你想要的样子”

它们常常出现在同一个 AI 方案里,但所在层次完全不同。Embedding 更像底层表示,RAG 是系统架构,微调是训练方法。

Concept Map

Embedding、RAG、微调并不处在同一层

它们经常被并列提起,但本质上分别对应表示方式、系统架构和训练手段。

Embedding

表示层:把内容映射成向量,便于比较语义相似度。

RAG

架构层:先检索外部知识,再结合模型生成答案。

微调

训练层:继续训练已有模型,让其在特定任务上更稳定。

Section 02Embedding:把内容转成可比较的向量表示

Embedding 指的是把文本、图片或其他对象映射成向量。这样系统才能在“语义空间”里比较相似度,而不是只做关键词匹配。

为什么不能只靠关键词

关键词检索的问题很直接:同义词、近义表达、上下文变化都会让检索失真。比如“如何取消订阅”和“怎样退订服务”表达的是同一件事,但关键词不一定完全一致。Embedding 的作用,就是把这类表面不同、语义相近的内容拉近。

向量到底在做什么

你可以把向量理解成一串坐标。相似的内容会在空间里彼此靠近,不相似的内容会离得更远。这样系统就能通过余弦相似度、欧氏距离等方式,判断两个内容是不是“像”。

Embedding 常见用途

Embedding 不只是给 RAG 服务,它的用途其实很多:

  • 语义搜索
  • 推荐系统
  • 聚类与分类
  • 相似问答
  • 去重与归并

也就是说,Embedding 是 AI 系统里很基础的一层能力。它不负责“回答”,但负责让系统知道“什么东西相似”。

Embedding 的局限

Embedding 再强,也不等于理解。它只能把内容压成向量表示,无法直接解释原因,也不会自动给你最新信息。向量相似不代表事实正确,更不代表回答完整。

这也是为什么很多系统只做向量检索还不够——它们需要上下文生成能力,需要 RAG。

Mechanism Flow

RAG 的工作流程

RAG 的重点不是改变模型本身,而是在生成前把相关知识检索进来。

Step 01
用户问题

提出需要回答的问题。

Step 02
检索器

根据问题到知识库里寻找相关内容。

Step 03
知识库

存放文档、资料或结构化内容。

Step 04
取回片段

把最相关的内容返回给系统。

Step 05
送入模型

问题与检索结果一起作为上下文输入。

Step 06
生成答案

模型基于补充后的上下文输出回答。

Section 03RAG:先检索,再生成

RAG(Retrieval-Augmented Generation)不是训练模型的方法,而是一种系统架构。它的思路是:先从外部知识库检索相关内容,再把这些内容一起交给模型生成答案。

为什么需要 RAG

大模型有两个天然问题:

  1. 它的参数里装的是训练时学到的知识,不一定有最新信息
  2. 它会根据上下文生成回答,有时会“编”出听起来合理但并不准确的内容

RAG 的价值就在于把回答拉回到可检索的知识来源上。你不必让模型“背下全部知识”,而是让它在回答前先去查。

RAG 的典型流程

一个标准的 RAG 一般包括这些步骤:

  1. 用户提出问题
  2. 问题被转换成向量
  3. 系统到向量库里做检索
  4. 拿到若干相关片段
  5. 把问题和片段一起送给大模型
  6. 模型基于补充后的上下文生成答案

这个过程的关键点不是“检索一次”,而是“把检索结果真正用进回答里”。如果检索了却没用,严格来说就不算有效 RAG。

RAG 的优点

RAG 常被用于企业知识库、客服问答、内部文档助手等场景,原因很简单:

  • 知识更新更快
  • 可追溯性更强
  • 不必频繁训练模型
  • 成本通常比大规模微调更低

特别是在知识变化频繁的场景里,RAG 的维护成本通常远低于持续微调。

RAG 的问题也很明显

RAG 并不是“装上就灵”。常见问题包括:

  • 检索不准,拿回来的片段不相关
  • 切分文档策略不好,导致上下文残缺
  • 召回太多,反而干扰模型判断
  • 生成模型没有真正利用检索内容

所以一个好 RAG,不只是把向量库接上去,而是要同时处理文档切分、召回策略、重排序、提示词拼装和答案校验。

Section 04微调:让模型在特定数据上进一步调整

微调(Fine-tuning)属于训练层面的手段。它通过额外数据继续训练已有模型,使模型在某类任务、风格或知识分布上表现得更稳定。

微调和“重新训练”不是一回事

微调通常不是从零开始训练一个模型,而是基于已有大模型继续调整。这样做的原因很现实:

  • 成本更低
  • 收敛更快
  • 更容易获得特定领域的效果

换句话说,微调是在“已经很强的模型”上,往特定方向再推一把。

微调适合解决什么

微调更适合这类问题:

  • 输出风格需要固定
  • 任务格式需要稳定
  • 特定领域语料很多
  • 需要模型学会特定行为模式

例如: - 法律咨询助手的输出格式 - 客服机器人语气统一 - 医疗摘要的结构化提取 - 企业内部术语表达风格

微调的代价

微调的代价不只是训练费用,还包括数据准备、评估、回滚和版本管理。你要问的问题不是“能不能微调”,而是:

  • 是否真的值得把知识写进参数里
  • 未来是否还会频繁变动
  • 数据是否足够干净
  • 是否有明确的评估标准

如果知识变化很快,把它写进模型参数里反而会成为负担。

Section 05这三者的关系是什么

Embedding 常用于检索,RAG 会用到检索结果,微调则可能完全不依赖检索。也就是说,它们可以组合,但并不是相互替代的关系。

你可以这样理解:

  • **Embedding**:负责“看起来像不像”
  • **RAG**:负责“查资料再回答”
  • **微调**:负责“让模型更像某种专家”

它们的关系更像是“工具链”而不是“同一层竞争”。

Section 06什么时候该用哪一种

如果你在做一个真实系统,通常可以按下面的思路判断:

优先考虑 RAG 的情况

优先考虑微调的情况

先做 Embedding 的情况

很多团队的真实路径其实是:先做 Embedding 检索,再做 RAG,最后在必要时考虑微调。

Section 07一个更实际的判断框架

你可以把问题分成三类:

  1. **知识问题**:答案在哪里?——先考虑 RAG
  2. **表达问题**:答案应该怎么说?——再考虑微调
  3. **匹配问题**:哪些内容彼此相关?——先考虑 Embedding

这比“我要不要上大模型”更接近真实工程。因为大多数 AI 项目的难点,不在模型本身,而在数据、检索、上下文和任务定义。

Section 08结语

Embedding 是表示,RAG 是架构,微调是训练手段。把这三层拆开,你会发现很多看似复杂的 AI 方案,其实只是不同层的技术组合。

理解它们,不是为了记住术语,而是为了在面对一个 AI 需求时,能准确判断:到底该改数据、改检索、改提示词,还是改模型。