untitled
目的:记录同一批标题在不同“引用/检索/博查开关”配置下的生成差异,便于后续发布观察效果并回溯复现。
本次对比的目标文章(同标题/同选题池): - 2026年值得关注的开源大模型:从Llama到国产模型的选型指南
一、四个版本对应的输出目录
1) 原版(baseline)
- 输出文件:seo-article-generator/output/2026年值得关注的开源大模型从Llama到国产模型的选型指南.md
- 生成方式:首次生成(当时为了加速对比,关闭了博查)
2) V1:preview_retrieval_fix
- 输出目录:seo-article-generator/output/preview_retrieval_fix/
- 生成方式:站内检索策略做了第一轮“去泛词 + 命中门槛 + 快照优先”的调整;仍关闭博查
3) V2:preview_retrieval_fix_v2
- 输出目录:seo-article-generator/output/preview_retrieval_fix_v2/
- 生成方式:在 V1 基础上收紧“引用规则”(避免编造速报期号/日期);仍关闭博查
4) V2 + 博查:preview_retrieval_fix_v2_bocha(推荐发布观察)
- 输出目录:seo-article-generator/output/preview_retrieval_fix_v2_bocha/
- 生成方式:V2 基础上开启博查(外部实时信息补充),提升 GEO(可引用性)与素材多样性
二、复现命令(Pipeline 标准用法)
现在已支持通过 --pipeline 参数快速复现上述方案:
1. 复现原版(baseline)
python batch.py --pipeline baseline --no-bocha
2. 复现 V2(strict_internal)
python batch.py --pipeline strict_internal
3. 复现 V2 + 博查(strict_bocha)
python batch.py --pipeline strict_bocha
三、每个版本的“开关/配置”摘要
1)baseline
- 特点:检索更宽泛,引用更激进。
- 现象:容易集中引用同一条速报,数据感强但易重复。
2)strict_internal
- 特点:检索去泛词、加门槛、多样性;引用要求更严。
- 现象:引用更谨慎,不易编造,但素材不足时可能较空。
3)strict_bocha(推荐)
- 特点:在 strict_internal 基础上,启用博查补充外部信息。
- 现象:引用来源丰富、GEO 友好,最符合发布要求。
四、代码层面的关键改动点
1)Pipeline 架构
引入 pipelines.py 统一管理方案配置,支持 retrieval_mode(检索模式)和 prompt_citation_rule(引用规则)的组合切换。
2)自动元数据标注
每篇文章 frontmatter 自动写入 pipeline、run_id、sources 等字段,便于后续分析效果。
3)检索与引用优化
- 检索:支持
strict模式(去泛词、多样性挑选)。 - 引用:支持
strict规则(禁止编造、分散引用)。
延伸阅读
- AI趋势监控网站推荐:8个帮你追踪行业动态的优质平台
- Prompt 工程入门指南:开发者快速上手的 5 个实操步骤
- 全球最权威的AI与科技信息获取平台:10个国内外值得关注的AI资讯网站推荐
- 国内值得关注的 AI 资讯网站推荐:人工智能行业每日资讯汇总
RadarAI 聚合 AI 优质更新与开源信息,帮助开发者高效追踪 AI 行业动态,快速判断哪些方向具备了落地条件。