更多文章

AI 与开发者相关深度内容

Browser Agent 相关项目清单:browser-use、OpenHands、Playwright MCP 和 Computer Use 该怎么看

Browser Agent 最近很热,但如果只看 demo,很容易误判它的成熟度。一个 Agent 能在浏览器里点几下,不等于它能稳定接手真实工作流;一个项目 star 涨得快,也不等于它适合马上接到团队流程里。对开发者来说,更有用的问题不是“Browser Agent 火不火”,而是现在有哪些相关项目值得看,它们分别在解决什么问题,应该怎么试。

这篇就按项目清单来写,不绕到抽象概念里。我们看四个核心入口:browser-useOpenHandsPlaywright MCPOpenAI Computer Use。再补充一个判断框架:哪些项目适合做网页任务,哪些更适合做开发者工作流,哪些应该先用来观察和验证,而不是直接交给它执行不可逆操作。

先给一张项目对比表

项目 / 入口 更像什么 适合先试的任务 当前要小心什么
browser-use 专门面向浏览器控制的 agent 项目 网页研究、表单草稿、跨页面信息整理 动态页面、登录态、复杂判断
OpenHands 面向软件开发任务的 agent 平台 改代码、跑命令、看本地页面、调试 任务边界要写清,不能丢给它“大目标”
Playwright MCP 把浏览器自动化能力接给 Agent 本地 UI 验证、截图、点击、smoke test 适合可复现流程,不适合无限开放网页任务
OpenAI Computer Use 模型厂商提供的计算机 / 浏览器操作能力 观察屏幕、执行受控步骤、测试工具调用边界 需要保留人工确认和动作日志

这四类不应该放在同一个“谁更强”的榜单里比较。它们的定位不同。browser-use 更靠近浏览器任务本身;OpenHands 更靠近软件开发 agent;Playwright MCP 更像把成熟浏览器自动化工具变成 Agent 可调用能力;Computer Use 则代表模型提供商把屏幕操作做成官方工具面。

browser-use:最像 Browser Agent 原生项目

如果你想理解 Browser Agent 这个方向,browser-use 是很适合看的项目。它的核心价值不在于“又封装了一层浏览器自动化”,而在于它把浏览器当成 Agent 的工作环境:打开页面、观察页面、理解元素、执行步骤、整理结果。

我会用它测试三类任务:

  1. 找资料:让它在多个页面之间收集信息,并保留来源
  2. 填草稿:让它填写不提交的表单,检查字段理解能力
  3. 跑流程:让它完成一个低风险的网页路径,比如搜索、筛选、导出

但我不会一上来让它做这些事:

  • 真实付款
  • 删除数据
  • 发布内容
  • 批量邀请用户
  • 修改生产配置

Browser Agent 第一阶段最适合做“观察 + 草稿 + 低风险操作”。如果一个项目在这三件事上已经能稳定工作,它就值得继续看;如果它只在精心设计的 demo 页面上表现好,那还不能说明太多。

OpenHands:Browser Agent 不一定只是浏览器项目

OpenHands 这类项目值得放进 Browser Agent 清单里,是因为真实开发任务往往不是纯浏览器任务。你让一个 Agent 修 bug,它可能要读代码、改文件、跑测试、启动本地服务、打开浏览器看页面、再回到代码里修。

这时候浏览器不是主角,而是开发循环的一部分。

比如一个前端 bug:

  1. 读 issue 描述
  2. 找到相关组件
  3. 修改代码
  4. 启动本地服务
  5. 打开浏览器验证页面
  6. 截图或记录结果
  7. 总结改动

如果只看“浏览器能不能点”,你会低估 OpenHands 这类项目;如果只看“能不能写代码”,你又会漏掉浏览器验证这一层。更准确的看法是:它代表的是开发者 agent 工作流,而浏览器能力是其中一个关键工具。

Playwright MCP:最适合工程团队先试的浏览器入口

对工程团队来说,我反而觉得 Playwright MCP 是最稳的第一站。原因很简单:Playwright 本来就是成熟的浏览器自动化和测试工具,团队理解它的模型。MCP 只是让 Agent 能以更结构化的方式调用这些能力。

它最适合这些场景:

场景 任务例子 为什么适合
本地页面检查 打开 localhost,确认页面不空白 结果可截图、可复现
表单验证 输入错误邮箱,看提示是否出现 步骤明确,风险低
回归 smoke test 登录后访问关键页面 可以和现有 QA 思路结合
UI bug 复现 按 issue 描述点击路径 能把自然语言转成浏览器动作

Playwright MCP 的优势不是“比所有 Browser Agent 更聪明”,而是更接近工程实践。它不会让团队突然相信一个黑盒 agent,而是把 agent 放进一个大家已经熟悉的浏览器验证框架里。

OpenAI Computer Use:看官方工具面怎么定义边界

Computer Use 这类官方能力值得看,不只是因为它来自模型厂商,而是因为它会影响未来很多产品的默认交互方式。模型可以看屏幕、选择动作、执行步骤,这意味着 Agent 不再只通过 API 或插件工作,也可能通过更接近人类使用电脑的方式完成任务。

但越是这种能力,越不能只看成功 demo。你应该重点看:

  • 它能不能解释自己看到了什么
  • 每一步动作有没有日志
  • 失败时能不能停下来
  • 有没有人工确认点
  • 对高风险动作有没有保护

Computer Use 的价值在“通用界面操作”,风险也在“通用界面操作”。它可能覆盖很多没有 API 的工具,但也更容易遇到 UI 变化、误点、权限和不可逆操作问题。

我会怎么测试一个 Browser Agent 项目

不要用一个大而虚的目标测试,比如“帮我做市场调研”。这类任务失败了你也不知道问题在哪。更好的方法是做一张小测试表:

测试 目标 通过标准
页面观察 打开指定页面并总结结构 能说清主要区域和按钮
表单草稿 填写字段但不提交 字段映射正确,能停在提交前
多页研究 找 3 个来源并整理差异 保留链接,不编造来源
本地验证 打开本地页面并截图 能说明页面是否符合预期
错误恢复 遇到弹窗或加载失败 能说明卡在哪里,而不是乱点

这张表比“跑一个酷炫 demo”更有用。因为真实工作流里的 Browser Agent,最常见的问题不是完全不会,而是做了一半开始猜、开始乱点、开始丢来源。

哪些 Browser Agent 项目值得继续跟

我会把值得继续跟的项目分成三类:

第一类是浏览器原生项目,比如 browser-use。它们能帮你理解“网页任务本身”正在怎么被 agent 化。

第二类是开发者 agent 项目,比如 OpenHands。它们让你看到浏览器能力如何嵌入开发、调试、测试和 repo 工作流。

第三类是工具协议和官方能力,比如 Playwright MCP、Computer Use。它们会影响未来 agent 调用浏览器的标准方式和安全边界。

如果你只看第一类,会把 Browser Agent 看窄;如果你只看第三类,又可能错过社区项目里已经出现的真实用法。更好的办法是三类都看,但每类只选 1-2 个代表项目深跟。

最后怎么判断它是否值得用

Browser Agent 现在最有价值的地方,不是替你做所有网页工作,而是处理那些“人能做、脚本嫌麻烦、API 又没有”的半结构化任务。

如果一个项目能稳定完成下面三件事,就值得继续试:

  • 看得懂页面状态
  • 动作过程可复盘
  • 能在不确定时停下来问人

如果它只会在成功路径里连续点击,却不能解释失败、不能保留来源、不能控制风险,那它还只能当实验项目。

这也是为什么我现在更愿意把 Browser Agent 当成一组项目和工具来跟,而不是当成一个抽象趋势来讲。真正有用的判断,永远落在项目、任务和边界上。

一个更实用的追踪方法:每类只深跟一个代表项目

Browser Agent 项目很多,但不建议一开始就做大而全的项目库。更稳的做法是每类只深跟一个代表项目,然后记录它们最近是否真的改变了能力边界。

我会这样建 watchlist:

类别 代表项目 每周看什么
浏览器任务原生 browser-use 是否新增更稳定的页面理解、动作规划、错误恢复
开发者 Agent OpenHands 是否把浏览器验证、代码修改、测试运行连得更顺
浏览器自动化协议 Playwright MCP 是否更适合本地应用验证、截图、DOM 观察
官方模型工具面 OpenAI Computer Use 是否出现更清楚的动作 schema、安全边界和示例

这张 watchlist 的价值,是避免你被“又出现一个 Browser Agent 项目”牵着走。每个新项目都可以先归类:它是在改进浏览器任务本身,还是在改进软件开发循环,还是在改进工具调用协议,还是在改进模型厂商的官方能力?归类以后,再决定是否值得加入深跟。

什么时候一个项目值得从 watch 进入 trial

我不会因为一个 Browser Agent 项目 star 很高就立刻 trial。真正值得进入试用,通常要满足四个条件:

  1. 有清楚的安装和运行路径,不是只能看 demo
  2. 能在你自己的网页或本地应用上跑,而不是只适配示例页面
  3. 失败时有截图、日志或步骤记录
  4. 能把高风险动作停在人工确认前

如果一个项目只满足前两个条件,我会继续 watch;如果四个都满足,才值得拿一个真实低风险任务试。这个判断很重要,因为 Browser Agent 的试用成本不是安装成本,而是复查成本。一个项目越不能解释自己做了什么,你后面越要花时间复盘。

最小试用任务:不要超过 30 分钟

第一次试一个 Browser Agent 项目,不要写复杂目标。选一个 30 分钟以内能结束的任务:

  • browser-use:找 3 个官方页面,整理功能差异和链接
  • OpenHands:修一个小 UI 文案问题,并打开本地页面验证
  • Playwright MCP:打开本地页面,截图并确认 3 个关键元素存在
  • Computer Use:观察一个工具界面,执行不涉及提交的受控步骤

如果项目连这种小任务都做不好,就不要急着扩大试点。如果它做得好,也不要马上给它高风险权限。下一步应该是重复同类任务 3 次,看稳定性,而不是换一个更难的任务证明它“很强”。

这套节奏慢一点,但更接近真实采用。Browser Agent 不是靠一次演示进入团队工作流的,它要靠一组小任务持续证明:能看懂、能行动、能停下、能复盘。

← 返回更多文章