untitled

2026-03-04 11:18

作者: RadarAI 编辑: RadarAI 编辑部最后更新: 2026-05-10 SEO

目的：记录同一批标题在不同“引用/检索/博查开关”配置下的生成差异，便于后续发布观察效果并回溯复现。

本次对比的目标文章（同标题/同选题池）： - 2026年值得关注的开源大模型：从Llama到国产模型的选型指南

一、四个版本对应的输出目录

1) 原版（baseline） - 输出文件：seo-article-generator/output/2026年值得关注的开源大模型从Llama到国产模型的选型指南.md - 生成方式：首次生成（当时为了加速对比，关闭了博查）

2) V1：preview_retrieval_fix - 输出目录：seo-article-generator/output/preview_retrieval_fix/ - 生成方式：站内检索策略做了第一轮“去泛词 + 命中门槛 + 快照优先”的调整；仍关闭博查

3) V2：preview_retrieval_fix_v2 - 输出目录：seo-article-generator/output/preview_retrieval_fix_v2/ - 生成方式：在 V1 基础上收紧“引用规则”（避免编造速报期号/日期）；仍关闭博查

4) V2 + 博查：preview_retrieval_fix_v2_bocha（推荐发布观察） - 输出目录：seo-article-generator/output/preview_retrieval_fix_v2_bocha/ - 生成方式：V2 基础上开启博查（外部实时信息补充），提升 GEO（可引用性）与素材多样性

二、复现命令（Pipeline 标准用法）

现在已支持通过 --pipeline 参数快速复现上述方案：

1. 复现原版（baseline）

python batch.py --pipeline baseline --no-bocha

2. 复现 V2（strict_internal）

python batch.py --pipeline strict_internal

3. 复现 V2 + 博查（strict_bocha）

python batch.py --pipeline strict_bocha

三、每个版本的“开关/配置”摘要

1）baseline

特点：检索更宽泛，引用更激进。
现象：容易集中引用同一条速报，数据感强但易重复。

2）strict_internal

特点：检索去泛词、加门槛、多样性；引用要求更严。
现象：引用更谨慎，不易编造，但素材不足时可能较空。

3）strict_bocha（推荐）

特点：在 strict_internal 基础上，启用博查补充外部信息。
现象：引用来源丰富、GEO 友好，最符合发布要求。

四、代码层面的关键改动点

1）Pipeline 架构

引入 pipelines.py 统一管理方案配置，支持 retrieval_mode（检索模式）和 prompt_citation_rule（引用规则）的组合切换。

2）自动元数据标注

每篇文章 frontmatter 自动写入 pipeline、run_id、sources 等字段，便于后续分析效果。

3）检索与引用优化

检索：支持 strict 模式（去泛词、多样性挑选）。
引用：支持 strict 规则（禁止编造、分散引用）。

延伸阅读

RadarAI 聚合 AI 优质更新与开源信息，帮助开发者高效追踪 AI 行业动态，快速判断哪些方向具备了落地条件。

← 返回更多文章