更多文章

AI 与开发者相关深度内容

2026 RAG 最小可用架构:什么时候先别加重排、压缩和路由

很多团队做 RAG,真正的问题不是“不会加组件”,而是“太早把组件全加上了”。

检索、重排、压缩、路由当然都重要,但它们不是起点,而是在你证明基础检索已经不够用以后才该逐层补上的东西。

更实际的问题是:如果你现在就要做一个能上线验证的 RAG,最小可用架构应该停在哪,什么时候先别加重排、压缩和路由?

RAG 第一版通常只需要三样东西

对大多数业务来说,第一版够用的 RAG 是:

  1. 文档切分
  2. 检索
  3. 回答生成

也就是:

原始文档 -> 分块 -> 检索 Top-K -> 拼接上下文 -> LLM 回答

如果这条链路都还没跑稳,过早加入重排、压缩、路由,带来的常常不是效果,而是额外复杂度。

为什么很多团队会过早加组件

因为网上的教程常把“生产级 RAG 技术栈”直接当成“起步模板”。
但真实项目里,团队最先要验证的不是“架构完整度”,而是:

  • 用户是不是真的需要检索增强
  • 你的数据能不能被切好
  • 检索回来的内容能不能支撑回答
  • 错误到底发生在检索,还是发生在生成

如果你连这四个问题都还没分清,就很容易把所有问题都归因给“少了一个高级组件”。

什么时候先别加重排

重排层最常见的价值,是把“召回到了但排得不够前”的内容重新顶上去。
所以,下面这些情况先别加

  • 你的 Top-3 本来就很准
  • 当前最大问题是切分差,不是排序差
  • 查询量还很小,没有必要增加每次请求时延
  • 你没有离线评估集,不知道重排到底有没有提升

该加重排的明确信号

  • 正确片段常出现在 Top-10,但进不了 Top-3
  • 用户问题里有大量缩写、歧义、多实体
  • 你已经能稳定评估 Context Precision

先确认问题是“召回到了但排错了”,再决定是否加重排。

什么时候先别加压缩

压缩层主要解决两个明确问题:

  1. 上下文太长,成本太高
  2. 检索回来很多冗余文本,影响回答质量

所以,如果你当前只是:

  • 文档本来就不长
  • Top-K 只取 3-5 条
  • 模型窗口完全够用
  • 成本还没成为核心矛盾

那就先别加压缩。

因为压缩层本身也会引入新的失真风险:你以为在做“去噪”,结果把关键限定条件也压掉了。

该加压缩的明确信号

  • 回答经常被无关背景冲淡
  • 每次上下文 token 明显过长
  • 同一信息在多个分块里反复出现
  • 账单已经说明“上下文冗余”是主要成本来源

什么时候先别加路由

路由层最容易被滥用。

一旦看到“Agentic RAG”“多路召回”“查询规划”,很多团队会自然觉得自己也该做一个路由器。但如果你现在的数据其实只有一类文档,那路由层通常只是人为增加排障难度。

下面这些情况,先别加路由

  • 你只有单一知识库
  • 用户问题类型还很单一
  • 目前的主要错误是“没召回到”,不是“去了错误数据源”
  • 团队还没有能力评估路由决策是否正确

该加路由的明确信号

  • 你已经同时接了文档、SQL、API 等多数据源
  • 同一句问题在不同数据源上答案差异很大
  • 用户问题经常需要“先查结构化数据,再查非结构化说明”

先出现多数据源冲突,再做路由;不要为了追概念先做路由。

一个更稳的 3 段式升级顺序

阶段 1:最小可用

  • 做好切分
  • 选一个稳定 embedding
  • 跑通基础检索
  • 收集真实问题样本

这一阶段的目标不是高分,而是搞清楚:
业务到底是不是 RAG 问题。

阶段 2:定点补强

只在确认某个问题持续存在时,补一个对应组件:

  • 排序差 -> 加重排
  • 上下文冗余 -> 加压缩
  • 多数据源冲突 -> 加路由

这里最关键的是:一次只加一个变量。

阶段 3:复杂编排

只有在你已经确定:

  • 数据源复杂
  • 问题类型复杂
  • 团队有稳定评估机制

才值得继续往 Agentic RAG、多跳规划、复杂路由上走。

用什么指标判断“该不该加”

别靠感觉做架构升级。至少先看这 4 个指标:

指标 说明 对应动作
Context Precision 召回内容是不是准 低则先查切分和检索,必要时加重排
Answer Relevance 回答是否真的答到问题 低则先区分是检索问题还是生成问题
Token Cost per Answer 每次回答上下文成本 成本过高再考虑压缩
Source Selection Accuracy 数据源选得对不对 多源场景下再考虑路由

如果你还没有这类指标,先别急着扩架构。

外部依据

下面这几份材料,最适合用来做 RAG 架构决策时的参考:

  • Lewis 等人的 RAG 论文:帮助你回到最基础的问题定义,别把所有生成问题都丢给复杂架构。
  • RAGAS:帮助你把评估从“感觉更好”变成可比较的指标。
  • LangChain Contextual Compression:帮助你理解压缩层到底在解决什么,不是为了概念完整,而是为了去掉冗余上下文。
  • Cohere Rerank 文档:帮助你理解重排层的适用边界。

常见问题

Q:是不是做生产级 RAG,早晚都要上四层?
不一定。很多业务长期只需要“稳定检索 + 合理切分 + 基础生成”,没有必要把复杂度抬到教程级架构。

Q:为什么我加了更多组件,效果反而更差?
因为你引入了更多误差来源:额外排序、额外压缩、额外路由,每一层都可能把正确答案推离。

Q:小团队应该优先优化哪一层?
优先优化切分和检索。它们决定了后面一切组件有没有意义。

Sources

延伸阅读2026 年 RAG 技术栈分层指南:检索、重排、压缩、路由何时该加

RadarAI 聚合 AI 优质更新与开源信息,帮助开发者与技术负责人高效追踪 AI 行业动态,快速判断哪些架构与组件具备了落地条件。

← 返回更多文章