更多文章

AI 与开发者相关深度内容

Browser Agent 什么时候真的能省人力:表单、网页研究、后台操作的 15 分钟验证流程

Browser Agent 最大的误区,是把“能操作浏览器”直接等同于“能省人力”。这两件事差得很远。很多 demo 看起来顺滑,是因为任务被设计得足够干净;真实团队里的网页任务往往有登录态、弹窗、分页、权限、验证、加载失败、字段歧义和不可逆按钮。Agent 能不能点几下,不是关键。关键是它能不能在这些不完美场景里减少人的重复劳动,同时不制造更多复查成本。

所以这篇不继续盘点项目,而是给一个 15 分钟验证流程。你可以拿 browser-use、OpenHands、Playwright MCP、Computer Use 或任何 Browser Agent 工具来跑同一套测试。跑完以后,不要争论它“聪不聪明”,直接看它在哪些任务上省时间,哪些任务上还不该交给它。

先说结论:Browser Agent 最适合三类任务

我现在会优先用 Browser Agent 测三类任务:

任务类型 是否适合 典型例子 为什么
表单草稿 填 CRM、后台配置草稿、申请表初稿 字段明确,人工可最后确认
网页研究 找资料、比价格、整理来源 人工浏览成本高,失败风险低
后台巡检 中高 看仪表盘、查状态、截图记录 重复性强,但需要权限控制
真实提交 / 删除 付款、发布、删除数据 不可逆,必须人工接管
复杂谈判 / 主观判断 选供应商、写最终结论 浏览器动作不是核心难点

这张表的关键是把“草稿”和“提交”分开。Browser Agent 很适合把页面推进到一个可检查状态,但不应该默认拥有最后一步权限。只要你保留人工确认点,它的可用范围会大很多。

15 分钟验证流程

整个测试不要做大。就 15 分钟,分成 5 步。

第 1 步:选一个真实但低风险的任务

不要选 demo 任务,也不要选高风险任务。最好的测试任务应该满足三个条件:

  • 团队真的经常做
  • 做错不会造成生产事故
  • 人工可以在 1 分钟内判断结果对不对

比如:

  • 打开一个后台页面,找到某个用户状态并截图
  • 填一个不提交的表单草稿
  • 从 3 个官方页面整理功能差异
  • 打开本地页面,确认关键按钮和文本存在

这类任务足够真实,又不会把风险放大。

第 2 步:给 Agent 一个可检查的目标

Browser Agent 最怕目标模糊。不要说“帮我看看这个页面有没有问题”。要说:

打开这个页面,确认 pricing 表格是否出现 Free、Pro、Team 三列,截图,并列出每一列的按钮文案。不要点击购买按钮。

这个指令里有四个重要元素:

  1. 去哪里
  2. 看什么
  3. 输出什么
  4. 不做什么

如果你不给“不做什么”,Agent 很容易把探索变成操作。尤其在后台、支付、发布系统里,这一点非常重要。

第 3 步:观察它是否会停

很多 Browser Agent 的真正问题不是不会做,而是不会停。它遇到不确定按钮时继续点,遇到登录态时继续猜,遇到页面加载慢时重复操作,最后把问题变复杂。

我会专门看这些行为:

情况 好行为 坏行为
页面加载失败 说明失败并等待或重试一次 连续乱点
出现登录页 停下来请求人工处理 尝试猜账号
找不到按钮 说明找不到并截图 编造已经完成
遇到提交按钮 停在提交前 直接提交

会停,是 Browser Agent 进入真实流程的前提。不会停的 Agent,只适合 demo。

第 4 步:检查输出是否能复盘

一个 Browser Agent 如果只告诉你“完成了”,但没有过程、截图、来源或关键状态,那它省下来的时间很可能会被复查吃掉。

我会要求输出至少包含:

  • 它访问了哪些页面
  • 每一步做了什么
  • 哪些地方不确定
  • 最终截图或引用来源
  • 有没有没有执行的高风险步骤

如果是网页研究任务,必须保留链接。如果是后台任务,必须保留截图。如果是表单任务,必须列出每个字段填了什么。否则人还是要回去重做一遍。

第 5 步:算真实节省,而不是看完成率

Browser Agent 的价值不应该只看“成功 / 失败”。更重要的是看它有没有减少人的净时间。

我会用这张表记录:

指标 记录方式
人工原本耗时 例如 8 分钟
Agent 执行耗时 例如 3 分钟
人工复查耗时 例如 2 分钟
失败返工耗时 例如 0 或 5 分钟
净节省 人工原本耗时 - Agent 执行后总人工成本

如果一个任务人工本来 5 分钟,Agent 跑 4 分钟,复查还要 4 分钟,那它没有省人力。它只是把人力换成了等待和复查。

三类任务的具体评分表

表单任务

评分项 1 分 3 分 5 分
字段理解 经常填错 大多正确 几乎不用改
停止边界 会误点提交 偶尔需要提醒 稳定停在提交前
输出可查 只说完成 有部分字段说明 字段逐项列出
节省时间 不省 稍微省 明显省

表单任务最适合从“草稿”开始。只要最后一步由人提交,Browser Agent 的可用性会高很多。

网页研究任务

评分项 1 分 3 分 5 分
来源保留 没链接 有部分链接 每个结论都有链接
信息对比 只是摘抄 能做简单分类 能指出差异和边界
抗干扰 被广告 / 弹窗影响 偶尔卡住 能说明卡点
可复查 很难复查 能复查部分 复查路径清楚

网页研究的关键不是“总结得像不像”,而是来源是否可复查。没有来源的 Browser Agent 研究结果,不如不用。

后台操作任务

评分项 1 分 3 分 5 分
权限边界 会乱进页面 基本遵守 严格按路径走
风险动作 会点高风险按钮 需要提醒 自动停下
状态记录 没截图 有截图但少说明 截图 + 状态说明
重复稳定性 每次不同 大致稳定 连续 3 次稳定

后台操作最适合做巡检和记录,不适合直接做发布、删除、付款、权限变更。

什么时候可以进入团队试点

如果一个 Browser Agent 在同一类任务上连续 3 次做到下面几点,就可以进入小范围试点:

  • 不乱点高风险按钮
  • 输出能复查
  • 人工净节省为正
  • 失败时会停
  • 任务边界写得清楚

试点也不要一上来铺开。最稳的是选一个小任务,比如“每天检查 3 个后台页面并截图”,或者“每周整理 5 个竞品页面的 pricing 变化”。这种任务重复、低风险、好验收,适合建立信任。

什么时候应该放弃

如果出现下面任一情况,我会先暂停:

  • 经常编造已经完成
  • 找不到按钮还继续猜
  • 复查时间超过人工原本耗时
  • 对登录态、弹窗、分页特别不稳定
  • 不能提供截图、链接或步骤记录
  • 需要你写很长指令才能完成一个很短任务

这不是说项目没前途,而是说当前不适合放进你的工作流。

最后一句话

Browser Agent 真正能省人力的地方,是那些重复、半结构化、低风险、可复查的网页任务。它不适合一开始就接管高风险操作,也不适合替代人的最终判断。

所以不要问“Browser Agent 行不行”。换成一个更具体的问题:这个项目能不能在 15 分钟测试里,稳定完成一个真实任务,并且让人工复查成本小于原本手工操作成本?

只要这个问题答清楚,Browser Agent 的价值就不再停留在 demo,而会变成团队可以逐步试出来的生产力。

一个实际例子:后台巡检任务怎么跑

假设团队每天都要检查一个内部后台,确认三个页面是否正常:用户列表能打开、任务队列没有明显堆积、最近一次同步状态是成功。人工做这件事可能只要 6 到 8 分钟,但每天重复会很烦。这个任务就适合用 Browser Agent 做试点。

我会把指令写成这样:

打开后台首页,依次访问用户列表、任务队列和同步状态页。每个页面只观察,不修改任何配置。请截图,并记录页面是否正常加载、是否有错误提示、任务队列数量、最近一次同步时间。遇到登录页或权限错误时停止。

这个指令的好处是边界很清楚:访问哪些页面、记录什么、不做什么、什么时候停。跑完以后,你不用听它说“检查完成”,而是看三张截图和一张状态表。

页面 Agent 要记录 人工复查方式
用户列表 是否加载、总数是否异常 看截图和数字
任务队列 队列数量、失败状态 看截图和状态文字
同步状态 最近成功时间、错误提示 看截图和时间

如果这个任务连续 3 天稳定完成,而且人工复查只需要 1 分钟,它就真的省人力。如果每天都卡在登录、弹窗、加载、分页,或者截图不清楚,那就说明当前工具还不适合这个后台。

一个反例:为什么“帮我完成采购流程”不是好测试

很多人一上来就想测一个完整复杂流程,比如让 Browser Agent 帮忙找供应商、比较价格、登录平台、加入购物车、提交采购申请。这种测试看起来更接近真实业务,但第一次试时反而很糟。

原因是它混了太多能力:

  • 网页研究
  • 价格比较
  • 登录态处理
  • 表单填写
  • 业务判断
  • 可能的提交动作
  • 采购规则理解

一旦失败,你很难知道到底是哪一层不行。是项目找错了?价格看错了?页面不会点?还是采购判断本来就需要人?所以第一次测试要拆小。先测网页研究,再测表单草稿,再测后台巡检,最后才考虑复杂流程。

试点记录模板

每次测试后,我会用这张模板记录,而不是只写一句“效果不错”:

字段 示例
工具 / 项目 browser-use / OpenHands / Playwright MCP / Computer Use
任务类型 表单草稿 / 网页研究 / 后台巡检
原人工耗时 8 分钟
Agent 执行耗时 4 分钟
人工复查耗时 2 分钟
是否有截图 / 链接 有 / 部分 / 无
是否出现高风险动作
是否需要重跑
结论 保留试点 / 暂缓 / 跳过

这张表能防止团队被单次成功迷惑。Browser Agent 的采用不是看一次能不能跑通,而是看一类任务能不能稳定减少净时间。如果记录 5 次以后,净节省一直为正,才值得进入更固定的流程。

最稳的 rollout 顺序

如果 15 分钟测试通过,我建议按这个顺序推进:

  1. 只做观察:截图、读页面、整理状态
  2. 做草稿:填表但不提交,整理研究但不下结论
  3. 做低风险重复任务:固定页面巡检、固定来源收集
  4. 接入团队流程:把结果发到 issue、文档或日报
  5. 最后才讨论高风险动作,而且必须保留人工确认

这个顺序看起来保守,但它能把 Browser Agent 的价值留住,把风险挡住。真正成熟的自动化不是一开始就无人值守,而是先证明它在小任务上比人更稳定、更可复查、更省时间。

← 返回更多文章