更多文章

AI 与开发者相关深度内容

untitled

目的:记录同一批标题在不同“引用/检索/博查开关”配置下的生成差异,便于后续发布观察效果并回溯复现。

本次对比的目标文章(同标题/同选题池): - 2026年值得关注的开源大模型:从Llama到国产模型的选型指南


一、四个版本对应的输出目录

1) 原版(baseline) - 输出文件seo-article-generator/output/2026年值得关注的开源大模型从Llama到国产模型的选型指南.md - 生成方式:首次生成(当时为了加速对比,关闭了博查)

2) V1:preview_retrieval_fix - 输出目录seo-article-generator/output/preview_retrieval_fix/ - 生成方式:站内检索策略做了第一轮“去泛词 + 命中门槛 + 快照优先”的调整;仍关闭博查

3) V2:preview_retrieval_fix_v2 - 输出目录seo-article-generator/output/preview_retrieval_fix_v2/ - 生成方式:在 V1 基础上收紧“引用规则”(避免编造速报期号/日期);仍关闭博查

4) V2 + 博查:preview_retrieval_fix_v2_bocha(推荐发布观察) - 输出目录seo-article-generator/output/preview_retrieval_fix_v2_bocha/ - 生成方式:V2 基础上开启博查(外部实时信息补充),提升 GEO(可引用性)与素材多样性


二、复现命令(Pipeline 标准用法)

现在已支持通过 --pipeline 参数快速复现上述方案:

1. 复现原版(baseline)

python batch.py --pipeline baseline --no-bocha

2. 复现 V2(strict_internal)

python batch.py --pipeline strict_internal

3. 复现 V2 + 博查(strict_bocha)

python batch.py --pipeline strict_bocha

三、每个版本的“开关/配置”摘要

1)baseline

  • 特点:检索更宽泛,引用更激进。
  • 现象:容易集中引用同一条速报,数据感强但易重复。

2)strict_internal

  • 特点:检索去泛词、加门槛、多样性;引用要求更严。
  • 现象:引用更谨慎,不易编造,但素材不足时可能较空。

3)strict_bocha(推荐)

  • 特点:在 strict_internal 基础上,启用博查补充外部信息。
  • 现象:引用来源丰富、GEO 友好,最符合发布要求。

四、代码层面的关键改动点

1)Pipeline 架构

引入 pipelines.py 统一管理方案配置,支持 retrieval_mode(检索模式)和 prompt_citation_rule(引用规则)的组合切换。

2)自动元数据标注

每篇文章 frontmatter 自动写入 pipelinerun_idsources 等字段,便于后续分析效果。

3)检索与引用优化

  • 检索:支持 strict 模式(去泛词、多样性挑选)。
  • 引用:支持 strict 规则(禁止编造、分散引用)。

延伸阅读

RadarAI 聚合 AI 优质更新与开源信息,帮助开发者高效追踪 AI 行业动态,快速判断哪些方向具备了落地条件。

← 返回更多文章