Browser Use:给 AI 一个浏览器,让它替你干活
2026-03-02 | 官网 | GitHub | ProductHunt
30秒快速判断
这东西是干嘛的:一个开源 Python 库,让 AI Agent 能像人一样操作浏览器——点按钮、填表单、切标签页、抓数据。你只需用自然语言说“帮我去 LinkedIn 收集职位信息”,它就能自动搞定。
值不值得关注:非常值得。GitHub 78K+ stars,Manus AI 爆火的幕后功臣之一,Y Combinator W25 出身,获 $17M 种子轮融资。这不只是一个玩具项目——它正在成为 AI Agent 时代的基础设施。
灵魂三问:这跟我有啥关系?
与我有关吗?
- 目标用户是谁:Python 开发者、AI Agent 构建者、需要自动化网页操作的创业者。
- 我是吗:如果你经常写爬虫、做 RPA、或者正在构建 AI Agent——你就是核心用户。如果你只是想自动化个人浏览器操作但不会写代码——目前它还不太适合你。
- 什么场景会用到:
- 需要批量填表、抓取数据、监控竞品价格 → 直接用。
- 正在开发 AI Agent 产品,需要“上网”能力 → 用它做底层框架。
- 只是想要个“帮我订机票”的助手 → 看看 Perplexity Comet 或 OpenAI Operator 可能更合适。
对我有用吗?
| 维度 | 收益 | 成本 |
|---|---|---|
| 时间 | 自动化重复性网页操作,30 个字段的表单填写从 12 分钟降到 90 秒 | 初次配置和学习 Python 可能需要半天到一天 |
| 金钱 | 开源免费,只需付 LLM 调用费;BU 2.0 约 200 个任务/$1 | 复杂工作流的 token 消耗可能不低 |
| 精力 | 一次写好,反复运行;自适应页面变化,无需频繁改选择器 | 需要理解 Agent 范式,调试 AI 行为比调试代码更烧脑 |
ROI 判断:如果你是开发者且有明确的网页自动化需求,ROI 极高。pip install browser-use 五分钟就能跑通第一个 demo。但如果你不写代码,学习成本会让 ROI 大打折扣。
爽点在哪里?
爽点在哪:
- 真正的“说人话”自动化:不用写 CSS 选择器、不用维护脆弱的 XPath,告诉 AI 你要什么就行。
- 速度惊人:BU 2.0 每步仅需 3 秒,完成一个任务平均 62 秒,比 Gemini Computer Use 快 4 倍。
那个“Wow”的瞬间:
“我跟它说‘去 Hacker News 找今天最热的 AI 文章并总结’,它真的自己打开了浏览器、滚动页面、点进文章、然后给了我一份精简的摘要。” —— GitHub Issues 用户反馈
用户真实评价:
正面:“WebVoyager 基准测试 89.1% 的成功率,这已经从‘大部分时候能用’跨越到‘真正可靠’的级别了。” —— Firecrawl 评测 正面:“Manus 爆火那周,Browser Use 的日下载量从 5000 飙升到了 28000。” —— Gregor Zunic 接受 TechCrunch 采访 吐槽:“不内置验证码 (CAPTCHA) 解决和双重验证 (2FA) 处理,遇到验证码你得自己想办法。” —— Skyvern 对比评测
独立开发者必看
技术栈
- 语言:Python >= 3.11
- 浏览器协议:从 Playwright 完全迁移到原生 CDP (Chrome DevTools Protocol),速度大幅提升。
- 架构:事件驱动 (EventBus),迭代式 Agent Step Loop。
- LLM:支持所有 LangChain 兼容模型——OpenAI GPT-4、Anthropic Claude、Google Gemini、本地 Ollama 等。
- 自有模型:ChatBrowserUse (BU 2.0),30B 参数但推理时仅激活 3B,极致性价比。
- 协议:支持 MCP (Model Context Protocol),可接入 Claude Desktop。
核心功能实现
Browser Use 的核心思路简单而巧妙:它不是让 AI “看”网页截图(像 Anthropic Computer Use 那样),而是把网页的 DOM 结构转换成结构化文本给 LLM 处理。这样做有两个好处:一是速度快(不需要频繁截图),二是更准确(文本比图片更容易让 LLM 理解)。
每一步的循环是:提取 DOM → 序列化为文本 → LLM 推理决策 → 通过 CDP 执行动作 → 更新状态 → 重复。只有在真正需要视觉上下文时才截图,省掉了每步约 0.8 秒的截图开销。
开源情况
- 开源吗:完全开源,采用 MIT License。
- GitHub:78K+ stars,8.9K forks,社区非常活跃。
- 类似开源项目:Stagehand(TypeScript,Browserbase 旗下)、Skyvern(Python + 计算机视觉)。
- 自己做难度:中高。核心 Agent Loop 不难,但 DOM 提取处理、CDP 交互的边界情况、多标签管理等工程量巨大。直接基于 Browser Use 二次开发更实际,从头做预计需要 3-6 人月。
商业模式
- 变现方式:开源核心 + Cloud 平台(经典的 Open Core 模式)。
- Cloud 定价:BU 2.0 约 200 个任务 / $1,新用户送 $10 免费额度。
- 用户量:78K+ GitHub stars,15K+ 开发者贡献者,Manus 事件后日下载量峰值达 28K。
巨头风险
这是最值得关注的问题。OpenAI 已有 Operator,Google 有 Project Mariner,Anthropic 有 Computer Use。巨头们都在布局自己的浏览器 Agent 方案。
但 Browser Use 有两个护城河:
- 开源生态——78K stars 的社区粘性极强,开发者已形成使用习惯。
- 中立性——它不绑定任何一家 LLM,你可以自由切换 OpenAI / Claude / Gemini 或本地模型。
风险在于:如果大厂把浏览器 Agent 能力直接内置到 OS 或浏览器(如 Chrome)中,独立工具的空间会被挤压。但短期内(1-2 年),开源方案的灵活性和可定制性仍是巨头产品无法替代的。
产品经理视角
痛点分析
- 解决什么问题:传统网页自动化(Selenium/Playwright)脚本极其脆弱。网站 UI 稍作改动,选择器就失效。Browser Use 让 AI 来“理解”网页,不依赖固定选择器。
- 痛点有多痛:高频刚需。任何做数据抓取、RPA、自动化测试的团队都深受 DOM 变化之苦。
用户画像
- 开发者:构建 AI Agent 的 Python 工程师,需要给 Agent 加上“上网”能力。
- 创业者:Manus 用 Browser Use 做底层;20+ 家 YC 公司已在使用。
- 数据团队:需要适应网站变化的智能爬虫。
功能拆解
| 功能 | 类型 | 说明 |
|---|---|---|
| 自然语言控制浏览器 | 核心 | 用人话描述任务,AI 自主执行 |
| DOM 结构化提取 | 核心 | 把网页转为 LLM 可理解的文本 |
| 多标签页管理 | 核心 | 像真人一样切换多个标签页 |
| 自定义 Action | 核心 | 支持保存文件、数据库操作、发送通知等 |
| 错误自动恢复 | 核心 | 遇到问题自动重试并调整策略 |
| ChatBrowserUse 模型 | 增值 | 自有优化模型,更快更准 |
| Cloud 平台 | 增值 | 托管服务,省去运维烦恼 |
竞品差异
| 对比项 | Browser Use | Stagehand | Skyvern |
|---|---|---|---|
| 语言 | Python | TypeScript | Python/YAML |
| 实现方式 | 全自主 AI Agent | 混合:确定性脚本 + AI 补位 | LLM + 计算机视觉 |
| 验证码 | 不内置 | 不内置 | 内置 |
| 价格 | 开源免费 + Cloud | 开源 + Browserbase | $0.05/步 |
| 核心优势 | 速度最快,社区最大 | 混合控制更可预测 | 视觉理解,无需了解 DOM |
| 最适合 | Python 开发者、追求灵活性 | TS 团队、追求确定性 | 非技术用户、表单密集场景 |
可借鉴的点
- “卖铲子”策略:创始人 Gregor 说过“这次我要卖铲子”——在 AI Agent 淘金热中,卖工具比做应用更稳健。
- 开源引爆增长:Manus 使用了 Browser Use,间接带来 5 倍下载增长。开源就是最好的免费市场推广。
- DOM 优于视觉:将网页转文本而非截图给 AI,这一技术选择让速度提升了 4 倍。
科技博主素材库
创始人故事
- Magnus Muller:ETH Zurich 数据科学硕士,连续创业者,从小就爱写爬虫。上一个创业项目以法律纠纷收场,一度非常低落。
- Gregor Zunic:ETH Zurich 物理学士 + 数据科学硕士,离开前一个项目后在 LinkedIn 发话:“这次我要造独角兽”。
- 为什么做这个:Magnus 觉得“Photoshop 有一百万个按钮但我知道自己要什么,为什么不能直接说?”加上 Anthropic 的 Computer Use 体验不佳,他们决定专攻浏览器。4 天做出 MVP,5 天后在 Hacker News 炸场。
争议点/讨论角度
- 安全争议:TechCrunch 指出 AI 浏览器代理存在“重大安全风险”——提示注入攻击可劫持 AI 行为。研究发现包括 Browser Use 在内的多个工具均有隐私漏洞。
- 开源与商业化:核心开源但推付费模型,社区是否会担心“开源只是引流”?
- Manus 关系:Manus 爆火时被发现底层用了 Browser Use,引发了“套壳 vs 创新”的广泛讨论。
热度数据
- PH排名:104 票。
- GitHub:78K+ stars,开源 AI 项目中增长最快的之一。
- Twitter/X 讨论:Manus 相关推文浏览量 240万+,创始人故事传播极广。
内容建议
- 适合写的角度:“两个 ETH 学生 4 天做出的工具,成了 Manus AI 的幕后英雄”——兼具故事性与技术深度。
- 蹭热点机会:AI Agent 是 2026 年最热赛道,Browser Use 作为基础设施层具有持续话题性。
早期尝鲜者指南
定价分析
| 层级 | 价格 | 包含功能 | 够用吗? |
|---|---|---|---|
| 开源自托管 | 免费(自付 LLM 费) | 全部核心功能 | 开发者完全够用 |
| Cloud 免费额度 | $10(注册即送) | 约 2000 个任务 | 够试用和小项目 |
| Cloud 付费 | 约 200 任务/$1 | BU 2.0 模型 + 托管浏览器 | 生产环境按需付费 |
上手指南
- 上手时间:5-15 分钟(需懂 Python)。
- 学习曲线:中等。
- 步骤:
uv init && uv add browser-use && uv sync- 设置 LLM API Key(OpenAI / Anthropic / Google 等)。
- 写 3 行代码创建 Agent 运行第一个任务。
- 可选:安装 Web UI 获得可视化界面。
坑和吐槽
- 验证码和 2FA:遇到验证码会卡住,需自行解决(Skyvern 在这方面更强)。
- Token 消耗可能“超支”:复杂页面 + 多步操作可能烧掉不少 token,建议先用便宜模型测试。
- 安全风险:把浏览器控制权交给 AI 有风险,恶意网页可能通过提示注入劫持行为。敏感操作(银行、支付)千万别用。
- 仅支持 Chromium:目前不支持 Firefox 用户。
安全和隐私
- 数据存储:自托管 = 数据本地;Cloud = 数据经过其服务器。
- 隐私风险:使用远程 LLM 时,网页内容会发送给 LLM 供应商。使用本地 Ollama 可避免。
- 建议:敏感场景用本地 LLM + 自托管;非敏感场景 Cloud 方案更省事。
替代方案
| 替代品 | 优势 | 劣势 |
|---|---|---|
| Stagehand | TS 生态,混合控制更稳定 | 社区较小,需更多手动脚本 |
| Skyvern | 内置验证码处理,视觉理解 | 依赖 CV 有时不稳定 |
| OpenAI Operator | 极致流畅,GPT 原生生态 | 封闭系统,需订阅费 |
| Perplexity Comet | 免费,多步任务能力强 | 不开源,不可定制 |
投资人视角
市场分析
- AI Agent 赛道:预计 2030 年达 $52.6B,年复合增长率 46.3%。
- AI 浏览器细分:预计 2034 年达 $76.8B。
- 驱动因素:LLM 推理能力跃升 + 企业自动化需求爆发(Gartner 预测 2026 年 40% 企业应用将内置 Agent)。
竞争格局
| 层级 | 玩家 | 定位 |
|---|---|---|
| 巨头 | OpenAI, Google, Anthropic | 封闭生态,绑定自家模型 |
| 基础设施 | Browserbase, Browserless | 云浏览器基础设施 |
| 开源方案 | Browser Use, Stagehand, Skyvern | 开源框架,开发者友好 |
Timing 分析
- 为什么是现在:2025-2026 是 AI Agent 元年。LLM 推理、CDP 协议、企业需求三个条件同时成熟。
- Manus 验证:Manus 的爆火验证了赛道可行性。Browser Use 作为其底层工具,获得了最强背书。
团队背景
- 创始人:Magnus Muller (CEO) + Gregor Zunic,均来自 ETH Zurich。
- 过往成绩:4 天做出 MVP,3 个月 GitHub 50K stars,是开源 AI 项目增长最快的之一。
融资情况
- 已融资:$17M Seed(2025年3月)。
- 领投:Felicis Ventures。
- 参投:Paul Graham、YC、SV Angel 等 19 家顶级机构。
结论
Browser Use 是 AI Agent 时代的 “Playwright”——它不只是测试工具,更是让 AI 拥有“上网”能力的基础设施。78K stars 的社区、Manus 的背书、$17M 的融资,说明市场已经给出了答案。
| 用户类型 | 建议 |
|---|---|
| 开发者 | 强烈推荐。构建 AI Agent 的必修课,pip install 试试就知道了。 |
| 产品经理 | 推荐关注。“卖铲子”策略和 DOM 转文本的技术思路极具借鉴意义。 |
| 博主 | 推荐写。创始人故事励志、技术有深度、自带 Manus 流量话题。 |
| 早期采用者 | 推荐尝试。开源免费,Cloud 额度够玩,但注意避开敏感场景。 |
| 投资人 | 重点关注。AI Agent 基础设施标杆,需持续观察巨头挤压风险。 |
资源链接
2026-03-02 | Trend-Tracker v7.3