Skyvern MCP & Skills:让 AI 助手直接操控浏览器,RPA 行业要变天了
2026-03-04 | ProductHunt | 官网 | GitHub

Skyvern 的主界面:深色系设计,左侧是工作流编辑器,可以拖拽构建“购买产品”等自动化流程。右侧是高级设置面板,配置重试次数、错误处理策略等。整体给人感觉像是一个为开发者打造的 no-code 自动化控制台。
30 秒快速判断
这 App 是干嘛的:利用 AI + 计算机视觉操控浏览器,替代传统的 Selenium/Playwright 脚本。你只需用自然语言告诉 AI “帮我填这个表单”,Skyvern 就会自动去执行——完全不需要写一行 CSS 选择器代码。
值不值得关注:非常值得。这不仅仅是又一个 RPA 玩具。它拥有 20k GitHub Stars、YC S23 背景、6 人团队做到了 90 万美元年收入、刚融了 270 万美元——而且通过 MCP 协议,它直接让 Claude Code/Cursor 这些 AI 工具获得了“上网动手”的能力。它是 2026 年 Agent 生态里一块极其关键的拼图。
与我有关三问
与我有关吗?
目标用户是谁:
- 需要批量自动化网页操作的企业(如发票下载、政府表单填写、采购流程自动化)
- 使用 Claude Code/Cursor 写代码,但需要浏览器操作能力的开发者
- 想做 RPA 自动化但预算有限、养不起 Automation Anywhere(每月 750 美元起)的小团队
- 正在开发 Agent 产品,需要给 AI 接上“手和眼”的开发者
我是目标用户吗:如果你经常需要手动重复操作网页(爬取数据、填表、登录门户下载文件),或者你正在构建 AI Agent 且需要浏览器控制能力——那你就是它的核心用户。
什么场景会用到:
- “帮我登录供应商后台,下载上个月的所有发票” —— 用它
- “批量在招聘网站上搜索年薪 15 万美元以上的远程 Python 职位” —— 用它
- “填写政府的多页复杂表单,字段多达几十个” —— 用它
- “只是想看看某个网页长什么样” —— 不需要它,直接用浏览器就行
对我有用吗?
| 维度 | 收益 | 代价 |
|---|---|---|
| 时间 | 每周节省 10-20 小时重复的浏览器操作 | MCP 配置仅需 30 秒,学习曲线极低 |
| 金钱 | 替代每月 750 美元以上的企业级 RPA 工具 | 免费层可试用,Cloud 版按信用额度计费 |
| 精力 | 无需维护脆弱的 XPath 脚本,网站改版也不怕 | 需要理解 MCP 概念并配置 API Key |
ROI 判断:如果你现在还在花时间写 Selenium 脚本或手动操作网页,Skyvern 几乎是稳赚不赔的选择。开源版免费,Cloud 版成本远低于传统 RPA。30 秒配置一行命令就能用,试错成本极低。
喜闻乐见吗?
爽点在哪:
- 30 秒配置:只需一行 JSON 命令,Claude Code 就能操控浏览器了。不需要配置 Python 环境,不需要 pip install,也不需要本地服务器。
- 自然语言控制:直接说“提交这个表单”就行,不用再写
document.querySelector('#btn-submit-form-v2').click()这种反人类的代码。 - 网站变了也不怕:传统脚本在网站改版后就会失效,而 Skyvern 使用视觉理解,按钮换了颜色或位置它照样能精准找到。
“哇”的瞬间:
“Skyvern 被证明是开发自动化求职 MVP 的得力助手,提供了极其强大的浏览器自动化能力。” —— 来自 ProductHunt 用户评价
用户真实评价:
“Skyvern MCP 在浏览器自动化方面表现非常稳。我之前试过类似的工具,但 Skyvern 专门针对网页工作流做了优化,体验完全不同。” —— @49agents, Twitter
“使用视觉模型实现浏览器工作流自动化,太酷了。” —— @tom_doerr, Twitter (51 个赞)
给独立开发者
技术栈
- 后端:Python 3.11+
- 浏览器引擎:Playwright(SDK 在其基础上叠加了 AI 能力)
- 数据库:PostgreSQL(用于状态管理)
- AI/模型:多模型支持——GPT-5/GPT-4.1/O3、Claude 4.5 Opus/Sonnet、Gemini 2.5/3.0、AWS Bedrock,甚至支持本地 Ollama(可运行 qwen3-vl 等视觉模型)
- MCP Server:内置 33 个工具,涵盖 6 大类别
核心功能实现
Skyvern 的架构灵感来自 BabyAGI 和 AutoGPT,但强化了浏览器控制能力。它是一个多 Agent 系统:
- LLM(认知大脑):同时处理页面的截图视觉信息和 DOM 文本信息,构建对网页的完整理解。
- 计算机视觉(眼睛):它不只是看 HTML 代码,而是像人一样“看”页面——识别按钮、表单、链接,哪怕底层代码全变了也能找对地方。
- Actor Agent + Validator Agent:一个负责执行操作,一个负责验证结果。如果验证失败,系统会自动纠错并重试。
简单来说:传统自动化看的是代码(选择器),Skyvern 看的是界面(截图)。网站改版对传统方案是灾难,对 Skyvern 来说只是“换了件衣服”。
开源情况
- 完全开源:核心逻辑 100% 托管在 GitHub 上,采用 Apache-2.0 协议。
- GitHub 表现:约 20k Stars, 1.7k Forks,社区非常活跃。
- Cloud 版额外功能:提供反检测、代理网络、验证码(CAPTCHA)自动识别、并行执行等高级功能。
- 安装一行搞定:
pip install skyvern && skyvern quickstart
商业模式
- 变现方式:开源核心功能免费 + Cloud 云端版按月信用额度计费。
- 定价层级:Free(体验)/ Hobby(个人)/ Pro(生产环境)/ Enterprise(企业定制)。
- 参考价格:Cloud 版约为 0.10 美元/步骤。
- 团队规模:6 人。
- 收入水平:2024 年 6 月已达到 90 万美元年营收。
巨头风险
虽然面临微软 Power Automate 和谷歌 AI Agent 的竞争,但 Skyvern 的优势在于:
- 走的是“AI+视觉”路线,而大厂 RPA 产品仍多依赖传统选择器逻辑。
- 开源社区的 20k Stars 构成了坚实的护城河。
- 它是 MCP 协议生态的早期参与者,卡位精准。
- 6 人团队实现 90 万美元收入,证明了其极强的产品市场匹配度(PMF)。
- 真正的威胁可能来自 Perplexity Comet(免费且面向消费级)和同为开源的 Browser Use。
给产品经理
痛点分析
- 解决什么问题:传统浏览器自动化脚本极其脆弱——网站改个按钮颜色、挪个位置、换个 class 名,脚本就挂了。维护成本往往远超开发成本。
- 痛点有多痛:高频且刚需。大企业每年花费数十万美元维护 RPA 脚本,中小企业则因门槛太高只能手动操作。Skyvern 用视觉模型替代选择器,从根本上解决了这个问题。
用户画像
- 企业 IT 团队:负责内部工具自动化(如发票处理、HR 流程、采购)。
- 独立开发者:构建 Agent 类产品时需要浏览器操作能力。
- AI 工具重度用户:希望给 Claude Code/Cursor 增加“上网”能力的人群。
- 中小企业:需要自动化但用不起昂贵的专业 RPA 软件。
功能拆解
| 功能 | 类型 | 说明 |
|---|---|---|
| MCP Server(33 个工具) | 核心 | 让 AI 助手能够直接控制浏览器 |
| 视觉+LLM 页面理解 | 核心 | 不依赖选择器,自动适应网页变化 |
| 自然语言工作流 | 核心 | 用人话描述任务,无需编写代码 |
| Cloud 浏览器 | 核心 | 在云端运行,支持地理位置代理 |
| 验证码识别 | 增值 | Cloud 版内置支持 |
| 2FA/TOTP 支持 | 增值 | 支持 Bitwarden 等密码管理器集成 |
| Observer 模式 | 锦上添花 | 自动观察并生成工作流 |
| 视频录制 | 锦上添花 | 记录自动化执行的全过程 |
竞品差异

这张图展示了 Skyvern MCP 的核心定位:作为连接各种 AI Agent(Claude、Cursor、Codex 等)的“浏览器手臂”。图中展示了实际的自然语言指令示例,例如“从 Google Sheet 提取数据并运行保险自动化流程”。
| 维度 | Skyvern | Automation Anywhere | Browser Use | Perplexity Comet |
|---|---|---|---|---|
| 核心差异 | AI 视觉 + MCP 协议 | 传统 RPA 选择器 | 开源 LLM + Playwright | 消费级浏览器 Agent |
| 价格 | 免费 + Cloud 信用制 | 每月 750 美元起 | 免费(需付 LLM 费) | 免费 |
| 代码要求 | 无需写代码 | 低代码 | 需要编写脚本 | 无需代码 |
| 维护成本 | 自动适应网页变化 | 网站一变就挂 | 需手动更新脚本 | 自动适应 |
| 企业级功能 | 完善(验证码/2FA/代理) | 完善 | 较弱 | 较弱 |
| 是否开源 | 是 (20k Stars) | 否 | 是 | 否 |
可借鉴的点
- MCP 作为分发策略:不执着于做独立 App,而是做“所有 AI 工具的浏览器插件”。Claude Code、Cursor 都能直接调用——这比单纯推自己的 UI 聪明得多。
- 开源核心 + Cloud 增值:通过核心逻辑开源建立信任和社区,靠反检测、验证码识别等刚需功能实现商业化。
- 30 秒配置体验:一行 JSON 就能跑通,极大降低了用户的试用门槛。
- 从“按步”转向“按月”计费:让用户不再纠结每个动作的成本,使用体验更自然。
给科技博主
创始人故事
这是一个典型的“三次创业终成正果”的励志故事:
Suchintan Singh(CEO) 和 Shuchang Zheng 最早做了一个叫 Ikonomos 的工程师入职工具,结果犯了所有经典错误:不跟用户交流、为无关痛痒的功能争吵。第一次申请 YC 面试直接被拒,因为他们回答不了“为什么有人要用你的产品”。
被拒后,他们开始研读 Paul Graham 的博客和斯坦福创业课,彻底醒悟。随后做了第二个产品 Wyvern(ML 排名平台),在申请截止日当天赶出了申请,凭借“产品还没做完但已经有客户在等”的 Demo 成功杀入 YC S23。
后来他们 Pivot(转型)到了 Skyvern。登顶 Hacker News 榜首那天,他们一夜之间拿到了 3000 个 GitHub Stars、71 个会议邀约和 39 个 Cloud 候补名单。Singh 此前在 Faire 和 Gopuff 负责 ML 平台,曾参与创造了超过 1 亿美元的 GMV。Zheng 是 CMU 毕业的前 Lyft 工程师,他开发的测试工具曾被 1000 多名工程师使用。
如今这个 6 人团队,在 2024 年 6 月就已实现了 90 万美元的收入。
争议点/讨论角度
- AI Agent 到底能不能取代 RPA? Skyvern 给出的答案是肯定的——用视觉代替选择器。但传统 RPA 巨头(UiPath、AA)也在疯狂加码 AI,这场生死战才刚刚开始。
- MCP 协议的垄断风险:这是 Anthropic 推动的标准,虽然 OpenAI 和 Google 都跟进了,但如果 MCP 成为事实标准,Skyvern 作为“原生 MCP 浏览器工具”的先发优势将非常巨大。
- 开源与商业化的平衡:核心逻辑全开源,如何防止被大厂 Fork?Cloud 版的反检测和验证码识别真的能构成长期壁垒吗?
- 6 人团队 90 万美元营收:人效比惊人,但这种极简模式能否支撑起大型企业客户的复杂需求?
热度数据
- PH Launch:164 票(中等热度)
- GitHub:约 20k Stars(极高热度)
- HN:曾多次登顶榜首
- Twitter:CEO 发布的 MCP Launch 推文获得近 4000 次曝光,社区反馈非常正面。
- 知名度:已入选“2026 年 50 个最佳 MCP Server”榜单。
内容建议
- 深度稿件角度:“RPA 已死?这家 6 人公司正在用 AI 视觉重新定义浏览器自动化”
- 蹭热点机会:MCP 协议大热,Claude Code/Cursor 生态话题性极强。
- 教程类内容:“30 秒让 Claude Code 学会像真人一样上网——Skyvern MCP 实战指南”
给早期采用者
定价分析
| 层级 | 价格 | 包含功能 | 评价 |
|---|---|---|---|
| Free | $0 | 体验与评估,低并发,无反检测 | 适合试用,不建议生产环境 |
| Hobby | 按月信用制 | 真实工作流支持,适合个人 | 个人项目绰绰有余 |
| Pro | 按月信用制 | 支持并行执行,适合小团队 | 生产环境的首选 |
| Enterprise | 定制 | 无上限,全功能支持 | 适合企业级大规模应用 |
| 开源自部署 | $0 | 核心功能全覆盖,无反检测 | 适合技术能力强的团队 |
上手指南
-
上手时间:MCP 模式 30 秒,自部署模式 5 分钟。
-
学习曲线:极低。
-
操作步骤(最推荐的 MCP 模式):
- 在 app.skyvern.com 注册并获取 API Key。
- 运行一行命令:
claude mcp add-json skyvern '{"type":"http","url":"https://mcp.skyvern.com/v1/mcp","headers":{"x-api-key":"YOUR_KEY"}}' - 直接在 Claude Code 里说:“帮我打开 Hacker News,抓取前 10 条标题” —— 搞定!
-
操作步骤(自部署模式):
- 执行
pip install skyvern && skyvern quickstart。 - 选择 Docker Compose 部署方式。
- 根据提示配置你的 LLM API Key。
- 执行
坑点与吐槽
- Python 版本兼容性:必须使用 3.11/3.12/3.13 版本,低版本会安装失败。GitHub 上有不少关于此问题的 Issue。
- 自动填充处理较弱:目前对某些复杂的自动填充(Autofill)输入框处理得不够完美。
- 文档尚不完整:社区反馈文档的覆盖面还有待提高,新手可能会在某些高级配置上卡壳。
- 消费端知名度不足:Trustpilot 上评价极少,说明它目前主要还是在开发者圈子里流行。
安全与隐私
- 数据存储:自部署模式下数据全在本地;Cloud 模式下数据会经过 Skyvern 服务器。
- 认证安全:支持集成 Bitwarden、HashiCorp Vault 等专业密码管理器。
- MCP 安全提醒:研究显示部分开源 MCP Server 存在漏洞,建议使用环境变量存储凭证,切勿硬编码。
- 安全审计:代码开源可查,但目前尚未见到权威的第三方安全审计报告。
替代方案
| 替代品 | 优势 | 劣势 |
|---|---|---|
| Browser Use | 完全免费开源,极其灵活 | 需要编写 Playwright 脚本,无 Cloud 服务 |
| Perplexity Comet | 免费且界面精致,适合普通用户 | 不开源,不适合企业级定制 |
| n8n | 拥有强大的工作流自动化生态 | 浏览器底层的控制能力相对较弱 |
| Browserbase | 云浏览器基础设施非常成熟 | 仍需要编写 Selenium/Playwright 代码 |
| 自研 Playwright+LLM | 完全可控 | 开发和后期维护成本极高 |
给投资人
市场分析
- RPA 市场:预计 2026 年达 352.7 亿美元,2035 年将增长至 2473.4 亿美元,年复合增长率(CAGR)达 24.2%。
- 超自动化市场:2025 年规模 630.6 亿美元,2035 年预计达 2873.8 亿美元。
- AI+RPA 融合趋势:到 2026 年,预计 58% 的企业将把 RPA 与 AI/ML 结合使用。
- 浏览器 Agent 新赛道:行业正从“写死”的 RPA 脚本向 AI 驱动的自适应自动化转型,这被视为 RPA 市场的“iPhone 时刻”。
竞争格局
| 层级 | 代表玩家 | 定位 |
|---|---|---|
| 头部(传统 RPA) | UiPath, Automation Anywhere | 企业级重型工具,价格昂贵 |
| 头部(新势力) | Microsoft Power Automate | 深度绑定 Office 365 生态 |
| 腰部(AI 原生) | Skyvern, Browser Use | 开源 + AI 视觉,主打灵活性 |
| 消费级 | Perplexity Comet | 免费、易用的浏览器 Agent |
| 基础设施层 | Browserbase | 提供云端浏览器运行环境 |
Timing 分析
- 为什么是现在:MCP 协议于 2024 年底由 Anthropic 推出,2025 年 OpenAI 和 Google 相继支持,2026 年已成为行业事实标准。Skyvern 作为原生 MCP 浏览器工具,卡位极其精准。
- 技术成熟度:多模态 LLM(如 GPT-4V、Claude 3.5)在 2024 年才真正达到商用水平,视觉理解能力到 2025-2026 年才足够稳定以支撑复杂的浏览器自动化。
- 市场接受度:企业对 AI 自动化的接受度在 2025-2026 年迎来爆发,“Agentic Browser”概念正从极客玩具演变为生产力工具。
团队背景
- Suchintan Singh(CEO):前 Faire/Gopuff ML 平台负责人,曾参与创造超 1 亿美元 GMV。
- Shuchang Zheng:CMU 硕士,前 Lyft 工程师,其开发的工具曾服务于千人规模的工程师团队。
- 团队规模:6 人(极度精简,人效比极高)。
- 创业经验:这是他们的第三次创业,既有失败的教训,也有极强的执行力。
融资与营收
- 孵化器:YC S23 成员。
- 总融资额:约 270 万至 343 万美元(种子轮,2025 年 12 月)。
- 投资方:Y Combinator, Unpopular Ventures 等。
- 营收情况:2024 年 6 月已实现 90 万美元年营收。
- 估值:未公开(种子轮预估在 1500 万至 2500 万美元区间)。
结论
Skyvern 是 2026 年 AI Agent 生态里的“浏览器手臂”——它不执着于做独立产品,而是致力于让所有 AI 工具都能上网“动手办事”。
| 用户类型 | 建议 |
|---|---|
| 开发者 | 强烈推荐。开源免费,20k Stars,架构清晰。如果你在做 Agent 产品,接入 MCP 是必修课。 |
| 产品经理 | 推荐关注。其 MCP 分发策略、开源+Cloud 的商业模式以及极致的上手体验都非常值得借鉴。 |
| 科技博主 | 推荐撰写。MCP 热点 + 创始人三次创业故事 + RPA 行业变革,素材非常丰富。 |
| 早期采用者 | 推荐试用。免费层足够体验,30 秒配置成本极低。但需留意文档不全和自动填充的小坑。 |
| 投资人 | 值得持续跟踪。作为 350 亿美元 RPA 市场的 AI 颠覆者,其高人效比已证明 PMF,需关注后续增长轨迹。 |
资源链接
2026-03-04 | Trend-Tracker v7.3