2026 RAG 最小可用架构:什么时候先别加重排、压缩和路由
很多团队做 RAG,真正的问题不是“不会加组件”,而是“太早把组件全加上了”。
检索、重排、压缩、路由当然都重要,但它们不是起点,而是在你证明基础检索已经不够用以后才该逐层补上的东西。
更实际的问题是:如果你现在就要做一个能上线验证的 RAG,最小可用架构应该停在哪,什么时候先别加重排、压缩和路由?
RAG 第一版通常只需要三样东西
对大多数业务来说,第一版够用的 RAG 是:
- 文档切分
- 检索
- 回答生成
也就是:
原始文档 -> 分块 -> 检索 Top-K -> 拼接上下文 -> LLM 回答
如果这条链路都还没跑稳,过早加入重排、压缩、路由,带来的常常不是效果,而是额外复杂度。
为什么很多团队会过早加组件
因为网上的教程常把“生产级 RAG 技术栈”直接当成“起步模板”。
但真实项目里,团队最先要验证的不是“架构完整度”,而是:
- 用户是不是真的需要检索增强
- 你的数据能不能被切好
- 检索回来的内容能不能支撑回答
- 错误到底发生在检索,还是发生在生成
如果你连这四个问题都还没分清,就很容易把所有问题都归因给“少了一个高级组件”。
什么时候先别加重排
重排层最常见的价值,是把“召回到了但排得不够前”的内容重新顶上去。
所以,下面这些情况先别加:
- 你的 Top-3 本来就很准
- 当前最大问题是切分差,不是排序差
- 查询量还很小,没有必要增加每次请求时延
- 你没有离线评估集,不知道重排到底有没有提升
该加重排的明确信号
- 正确片段常出现在 Top-10,但进不了 Top-3
- 用户问题里有大量缩写、歧义、多实体
- 你已经能稳定评估
Context Precision
先确认问题是“召回到了但排错了”,再决定是否加重排。
什么时候先别加压缩
压缩层主要解决两个明确问题:
- 上下文太长,成本太高
- 检索回来很多冗余文本,影响回答质量
所以,如果你当前只是:
- 文档本来就不长
- Top-K 只取 3-5 条
- 模型窗口完全够用
- 成本还没成为核心矛盾
那就先别加压缩。
因为压缩层本身也会引入新的失真风险:你以为在做“去噪”,结果把关键限定条件也压掉了。
该加压缩的明确信号
- 回答经常被无关背景冲淡
- 每次上下文 token 明显过长
- 同一信息在多个分块里反复出现
- 账单已经说明“上下文冗余”是主要成本来源
什么时候先别加路由
路由层最容易被滥用。
一旦看到“Agentic RAG”“多路召回”“查询规划”,很多团队会自然觉得自己也该做一个路由器。但如果你现在的数据其实只有一类文档,那路由层通常只是人为增加排障难度。
下面这些情况,先别加路由
- 你只有单一知识库
- 用户问题类型还很单一
- 目前的主要错误是“没召回到”,不是“去了错误数据源”
- 团队还没有能力评估路由决策是否正确
该加路由的明确信号
- 你已经同时接了文档、SQL、API 等多数据源
- 同一句问题在不同数据源上答案差异很大
- 用户问题经常需要“先查结构化数据,再查非结构化说明”
先出现多数据源冲突,再做路由;不要为了追概念先做路由。
一个更稳的 3 段式升级顺序
阶段 1:最小可用
- 做好切分
- 选一个稳定 embedding
- 跑通基础检索
- 收集真实问题样本
这一阶段的目标不是高分,而是搞清楚:
业务到底是不是 RAG 问题。
阶段 2:定点补强
只在确认某个问题持续存在时,补一个对应组件:
- 排序差 -> 加重排
- 上下文冗余 -> 加压缩
- 多数据源冲突 -> 加路由
这里最关键的是:一次只加一个变量。
阶段 3:复杂编排
只有在你已经确定:
- 数据源复杂
- 问题类型复杂
- 团队有稳定评估机制
才值得继续往 Agentic RAG、多跳规划、复杂路由上走。
用什么指标判断“该不该加”
别靠感觉做架构升级。至少先看这 4 个指标:
| 指标 | 说明 | 对应动作 |
|---|---|---|
| Context Precision | 召回内容是不是准 | 低则先查切分和检索,必要时加重排 |
| Answer Relevance | 回答是否真的答到问题 | 低则先区分是检索问题还是生成问题 |
| Token Cost per Answer | 每次回答上下文成本 | 成本过高再考虑压缩 |
| Source Selection Accuracy | 数据源选得对不对 | 多源场景下再考虑路由 |
如果你还没有这类指标,先别急着扩架构。
外部依据
下面这几份材料,最适合用来做 RAG 架构决策时的参考:
- Lewis 等人的 RAG 论文:帮助你回到最基础的问题定义,别把所有生成问题都丢给复杂架构。
- RAGAS:帮助你把评估从“感觉更好”变成可比较的指标。
- LangChain Contextual Compression:帮助你理解压缩层到底在解决什么,不是为了概念完整,而是为了去掉冗余上下文。
- Cohere Rerank 文档:帮助你理解重排层的适用边界。
常见问题
Q:是不是做生产级 RAG,早晚都要上四层?
不一定。很多业务长期只需要“稳定检索 + 合理切分 + 基础生成”,没有必要把复杂度抬到教程级架构。
Q:为什么我加了更多组件,效果反而更差?
因为你引入了更多误差来源:额外排序、额外压缩、额外路由,每一层都可能把正确答案推离。
Q:小团队应该优先优化哪一层?
优先优化切分和检索。它们决定了后面一切组件有没有意义。
Sources
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
- RAGAS Documentation
- LangChain Contextual Compression
- Cohere Rerank Overview
延伸阅读:2026 年 RAG 技术栈分层指南:检索、重排、压缩、路由何时该加
RadarAI 聚合 AI 优质更新与开源信息,帮助开发者与技术负责人高效追踪 AI 行业动态,快速判断哪些架构与组件具备了落地条件。