Browser Agent 相关项目清单:browser-use、OpenHands、Playwright MCP 和 Computer Use 该怎么看
Browser Agent 最近很热,但如果只看 demo,很容易误判它的成熟度。一个 Agent 能在浏览器里点几下,不等于它能稳定接手真实工作流;一个项目 star 涨得快,也不等于它适合马上接到团队流程里。对开发者来说,更有用的问题不是“Browser Agent 火不火”,而是现在有哪些相关项目值得看,它们分别在解决什么问题,应该怎么试。
这篇就按项目清单来写,不绕到抽象概念里。我们看四个核心入口:browser-use、OpenHands、Playwright MCP 和 OpenAI Computer Use。再补充一个判断框架:哪些项目适合做网页任务,哪些更适合做开发者工作流,哪些应该先用来观察和验证,而不是直接交给它执行不可逆操作。
先给一张项目对比表
| 项目 / 入口 | 更像什么 | 适合先试的任务 | 当前要小心什么 |
|---|---|---|---|
| browser-use | 专门面向浏览器控制的 agent 项目 | 网页研究、表单草稿、跨页面信息整理 | 动态页面、登录态、复杂判断 |
| OpenHands | 面向软件开发任务的 agent 平台 | 改代码、跑命令、看本地页面、调试 | 任务边界要写清,不能丢给它“大目标” |
| Playwright MCP | 把浏览器自动化能力接给 Agent | 本地 UI 验证、截图、点击、smoke test | 适合可复现流程,不适合无限开放网页任务 |
| OpenAI Computer Use | 模型厂商提供的计算机 / 浏览器操作能力 | 观察屏幕、执行受控步骤、测试工具调用边界 | 需要保留人工确认和动作日志 |
这四类不应该放在同一个“谁更强”的榜单里比较。它们的定位不同。browser-use 更靠近浏览器任务本身;OpenHands 更靠近软件开发 agent;Playwright MCP 更像把成熟浏览器自动化工具变成 Agent 可调用能力;Computer Use 则代表模型提供商把屏幕操作做成官方工具面。
browser-use:最像 Browser Agent 原生项目
如果你想理解 Browser Agent 这个方向,browser-use 是很适合看的项目。它的核心价值不在于“又封装了一层浏览器自动化”,而在于它把浏览器当成 Agent 的工作环境:打开页面、观察页面、理解元素、执行步骤、整理结果。
我会用它测试三类任务:
- 找资料:让它在多个页面之间收集信息,并保留来源
- 填草稿:让它填写不提交的表单,检查字段理解能力
- 跑流程:让它完成一个低风险的网页路径,比如搜索、筛选、导出
但我不会一上来让它做这些事:
- 真实付款
- 删除数据
- 发布内容
- 批量邀请用户
- 修改生产配置
Browser Agent 第一阶段最适合做“观察 + 草稿 + 低风险操作”。如果一个项目在这三件事上已经能稳定工作,它就值得继续看;如果它只在精心设计的 demo 页面上表现好,那还不能说明太多。
OpenHands:Browser Agent 不一定只是浏览器项目
OpenHands 这类项目值得放进 Browser Agent 清单里,是因为真实开发任务往往不是纯浏览器任务。你让一个 Agent 修 bug,它可能要读代码、改文件、跑测试、启动本地服务、打开浏览器看页面、再回到代码里修。
这时候浏览器不是主角,而是开发循环的一部分。
比如一个前端 bug:
- 读 issue 描述
- 找到相关组件
- 修改代码
- 启动本地服务
- 打开浏览器验证页面
- 截图或记录结果
- 总结改动
如果只看“浏览器能不能点”,你会低估 OpenHands 这类项目;如果只看“能不能写代码”,你又会漏掉浏览器验证这一层。更准确的看法是:它代表的是开发者 agent 工作流,而浏览器能力是其中一个关键工具。
Playwright MCP:最适合工程团队先试的浏览器入口
对工程团队来说,我反而觉得 Playwright MCP 是最稳的第一站。原因很简单:Playwright 本来就是成熟的浏览器自动化和测试工具,团队理解它的模型。MCP 只是让 Agent 能以更结构化的方式调用这些能力。
它最适合这些场景:
| 场景 | 任务例子 | 为什么适合 |
|---|---|---|
| 本地页面检查 | 打开 localhost,确认页面不空白 | 结果可截图、可复现 |
| 表单验证 | 输入错误邮箱,看提示是否出现 | 步骤明确,风险低 |
| 回归 smoke test | 登录后访问关键页面 | 可以和现有 QA 思路结合 |
| UI bug 复现 | 按 issue 描述点击路径 | 能把自然语言转成浏览器动作 |
Playwright MCP 的优势不是“比所有 Browser Agent 更聪明”,而是更接近工程实践。它不会让团队突然相信一个黑盒 agent,而是把 agent 放进一个大家已经熟悉的浏览器验证框架里。
OpenAI Computer Use:看官方工具面怎么定义边界
Computer Use 这类官方能力值得看,不只是因为它来自模型厂商,而是因为它会影响未来很多产品的默认交互方式。模型可以看屏幕、选择动作、执行步骤,这意味着 Agent 不再只通过 API 或插件工作,也可能通过更接近人类使用电脑的方式完成任务。
但越是这种能力,越不能只看成功 demo。你应该重点看:
- 它能不能解释自己看到了什么
- 每一步动作有没有日志
- 失败时能不能停下来
- 有没有人工确认点
- 对高风险动作有没有保护
Computer Use 的价值在“通用界面操作”,风险也在“通用界面操作”。它可能覆盖很多没有 API 的工具,但也更容易遇到 UI 变化、误点、权限和不可逆操作问题。
我会怎么测试一个 Browser Agent 项目
不要用一个大而虚的目标测试,比如“帮我做市场调研”。这类任务失败了你也不知道问题在哪。更好的方法是做一张小测试表:
| 测试 | 目标 | 通过标准 |
|---|---|---|
| 页面观察 | 打开指定页面并总结结构 | 能说清主要区域和按钮 |
| 表单草稿 | 填写字段但不提交 | 字段映射正确,能停在提交前 |
| 多页研究 | 找 3 个来源并整理差异 | 保留链接,不编造来源 |
| 本地验证 | 打开本地页面并截图 | 能说明页面是否符合预期 |
| 错误恢复 | 遇到弹窗或加载失败 | 能说明卡在哪里,而不是乱点 |
这张表比“跑一个酷炫 demo”更有用。因为真实工作流里的 Browser Agent,最常见的问题不是完全不会,而是做了一半开始猜、开始乱点、开始丢来源。
哪些 Browser Agent 项目值得继续跟
我会把值得继续跟的项目分成三类:
第一类是浏览器原生项目,比如 browser-use。它们能帮你理解“网页任务本身”正在怎么被 agent 化。
第二类是开发者 agent 项目,比如 OpenHands。它们让你看到浏览器能力如何嵌入开发、调试、测试和 repo 工作流。
第三类是工具协议和官方能力,比如 Playwright MCP、Computer Use。它们会影响未来 agent 调用浏览器的标准方式和安全边界。
如果你只看第一类,会把 Browser Agent 看窄;如果你只看第三类,又可能错过社区项目里已经出现的真实用法。更好的办法是三类都看,但每类只选 1-2 个代表项目深跟。
最后怎么判断它是否值得用
Browser Agent 现在最有价值的地方,不是替你做所有网页工作,而是处理那些“人能做、脚本嫌麻烦、API 又没有”的半结构化任务。
如果一个项目能稳定完成下面三件事,就值得继续试:
- 看得懂页面状态
- 动作过程可复盘
- 能在不确定时停下来问人
如果它只会在成功路径里连续点击,却不能解释失败、不能保留来源、不能控制风险,那它还只能当实验项目。
这也是为什么我现在更愿意把 Browser Agent 当成一组项目和工具来跟,而不是当成一个抽象趋势来讲。真正有用的判断,永远落在项目、任务和边界上。
一个更实用的追踪方法:每类只深跟一个代表项目
Browser Agent 项目很多,但不建议一开始就做大而全的项目库。更稳的做法是每类只深跟一个代表项目,然后记录它们最近是否真的改变了能力边界。
我会这样建 watchlist:
| 类别 | 代表项目 | 每周看什么 |
|---|---|---|
| 浏览器任务原生 | browser-use | 是否新增更稳定的页面理解、动作规划、错误恢复 |
| 开发者 Agent | OpenHands | 是否把浏览器验证、代码修改、测试运行连得更顺 |
| 浏览器自动化协议 | Playwright MCP | 是否更适合本地应用验证、截图、DOM 观察 |
| 官方模型工具面 | OpenAI Computer Use | 是否出现更清楚的动作 schema、安全边界和示例 |
这张 watchlist 的价值,是避免你被“又出现一个 Browser Agent 项目”牵着走。每个新项目都可以先归类:它是在改进浏览器任务本身,还是在改进软件开发循环,还是在改进工具调用协议,还是在改进模型厂商的官方能力?归类以后,再决定是否值得加入深跟。
什么时候一个项目值得从 watch 进入 trial
我不会因为一个 Browser Agent 项目 star 很高就立刻 trial。真正值得进入试用,通常要满足四个条件:
- 有清楚的安装和运行路径,不是只能看 demo
- 能在你自己的网页或本地应用上跑,而不是只适配示例页面
- 失败时有截图、日志或步骤记录
- 能把高风险动作停在人工确认前
如果一个项目只满足前两个条件,我会继续 watch;如果四个都满足,才值得拿一个真实低风险任务试。这个判断很重要,因为 Browser Agent 的试用成本不是安装成本,而是复查成本。一个项目越不能解释自己做了什么,你后面越要花时间复盘。
最小试用任务:不要超过 30 分钟
第一次试一个 Browser Agent 项目,不要写复杂目标。选一个 30 分钟以内能结束的任务:
- browser-use:找 3 个官方页面,整理功能差异和链接
- OpenHands:修一个小 UI 文案问题,并打开本地页面验证
- Playwright MCP:打开本地页面,截图并确认 3 个关键元素存在
- Computer Use:观察一个工具界面,执行不涉及提交的受控步骤
如果项目连这种小任务都做不好,就不要急着扩大试点。如果它做得好,也不要马上给它高风险权限。下一步应该是重复同类任务 3 次,看稳定性,而不是换一个更难的任务证明它“很强”。
这套节奏慢一点,但更接近真实采用。Browser Agent 不是靠一次演示进入团队工作流的,它要靠一组小任务持续证明:能看懂、能行动、能停下、能复盘。