Mercury 2:把扩散模型的思路搬到文字生成,速度快了一个数量级
2026-02-26 | https://www.producthunt.com/products/mercury-2

Gemini 解读:这是 Inception 的聊天界面,采用极简暗色设计,中央输入框带有"Diffusion Effect"开关和"Mercury 2"模型选择器。整体风格类似 Perplexity,主打简洁和速度体验。
30秒快速判断
这App干嘛的:Inception Labs 做了一个不走寻常路的 LLM —— 它不像传统模型那样一个 token 一个 token 往外蹦,而是像图片扩散模型一样,先生成一个"草稿",然后同时打磨多个 token。结果就是:速度达到 1,000+ tokens/秒,比 Claude Haiku 快 13 倍,比 GPT-5 Mini 快 15 倍。
值不值得关注:值得,但要分情况。
理由:
- 如果你在做 AI Agent、实时语音助手、代码补全这类对延迟极其敏感的应用,这可能是目前性价比最高的选择。
- 如果你需要的是最聪明的模型(做复杂推理、写长文章),Mercury 2 不是最佳选择 —— 它的智力水平大约对标 Claude Haiku,还没到 Opus 级别。
- 架构创新本身很有意思,值得开发者关注扩散式 LLM 这个新方向。
和谁比?有什么不同?

Gemini 解读:这张速度基准测试图直观展示了 Mercury 2 (1009 t/s) 与 Claude Haiku 4.5 (89 t/s)、GPT-5 Mini (71 t/s) 的巨大差距,标注">5x faster"。
| 对比项 | Mercury 2 | Claude 4.5 Haiku | GPT 5.2 Mini |
|---|---|---|---|
| 核心差异 | 扩散式架构,并行生成 | 自回归,逐个 token 生成 | 自回归,逐个 token 生成 |
| 速度 | 1,196 t/s | 89 t/s | 71 t/s |
| 延迟 | 1.7 秒 | 23.4 秒 | 不详 |
| 输出价格 | $0.75/M | $5.00/M | 不详 |
| 智力水平 | 中等(AIME 91.1) | 相当 | 相当 |
| 优势 | 极快、极便宜 | 生态成熟、稳定 | OpenAI 生态 |
与我有关三问
与我有关吗?
- 目标用户:做 AI 应用的开发者和公司,特别是对延迟和成本敏感的场景。
- 我是吗:如果你在做以下事情,Mercury 2 跟你直接相关 ——
- 构建 AI Agent,需要快速的 LLM 循环调用。
- 做实时语音助手,不能让用户等 20 秒。
- 搞代码补全/编辑器插件,需要即时响应。
- 大规模批处理,推理成本是核心考量。
- 什么场景会用到:
- Agent 循环 → Mercury 2 的 1.7 秒延迟 vs 别人的 14-23 秒,直接决定了产品能不能用。
- 实时对话/语音 → 选这个准没错。
- 代码补全/重构 → 选这个(已集成 ProxyAI、Kilo Code 等工具)。
- 写深度长文或做复杂分析 → 不太合适,建议用 Claude Opus 或 GPT-5。
对我有用吗?
| 维度 | 收益 | 代价 |
|---|---|---|
| 时间 | Agent 循环快 10 倍以上;代码补全几乎即时 | 学习新的 API 接口(不过兼容 OpenAI 格式) |
| 金钱 | 输出成本是 Claude Haiku 的 1/7;是 Gemini Flash 的 1/4 | 按量付费,$0.75/百万 output tokens |
| 精力 | 不用再在"选快的还是选聪明的"之间纠结 —— 需要速度就选它 | 扩散模型的 prompt 技巧可能和传统模型不完全一样 |
ROI 判断:如果你的应用场景是"调一次 LLM 不够,要反复调几十次"(如 agent、搜索、代码),那 Mercury 2 的 ROI 非常高 —— 同样的事情,成本降 4-7 倍,速度快 5-13 倍。如果你只是偶尔调一次 API 聊天,差别其实不大。
喜闻乐见吗?
爽点在哪:
- 速度带来的体感变化:从"等 AI 回答"变成"AI 秒回",这种体验是质的飞跃。
- 成本被打下来了:以前 Agent 跑一个复杂任务要好几美元,现在可能只要几毛钱。
"哇"的瞬间:
"这速度简直离谱。每秒约 1,000 个 token,端到端延迟仅 1.7 秒。这比其他模型快了一个数量级。" —— @RuiDiaoX
用户真实评价:
正面:"Inception Labs 扩散式 LLM 的推理速度令人印象深刻。它是传统自回归 LLM 之外一个极具吸引力的选择。干得漂亮!" —— @AndrewYNg (吴恩达,1224 个赞)
正面:"试过 Mercury 之后就再也回不去了。我们非常激动能用它来支持我们所有的语音 Agent。" —— 客户反馈 (Inception Labs 官网)
观望:"这是一个非常有前景的方法,希望他们能做出更大、更强的模型。如果能达到 Qwen3.5 34B 的水平,家用电脑也能跑起 TurboTokens 了。" —— @TeksEdge
给独立开发者
技术栈
- 核心架构:扩散式大语言模型(diffusion LLM / dLLM),区别于传统自回归。
- 工作原理:从噪声出发,通过 Transformer 网络多步去噪,同时修改多个 token —— 类似 Midjourney 生成图片的方式,但应用于文本。
- GPU:在 NVIDIA Blackwell GPU 上运行。
- API 格式:通过 Inception API 提供,支持 128K 上下文窗口。
- 功能支持:工具调用 (function calling)、JSON 结构化输出。

Gemini 解读:左侧自回归 LLM 需要 75 次迭代完成代码生成,右侧 Inception Diffusion LLM 只需 14 次迭代完成相同任务,效率提升 5 倍以上。
核心功能实现
说白了就是:传统 LLM 像打字员,一个字一个字敲;Mercury 2 像编辑,先快速写一个粗稿,然后同时修改所有需要改的地方。每一步都能并行处理多个 token,所以单次神经网络推理产出的有效工作量远远超过自回归模型。
这不是在现有架构上做优化(比如更好的 GPU、模型压缩),而是从根本上换了一条路。扩散技术在图像和视频生成上已经证明了自己(Midjourney、Sora),现在 Inception 把它搬到了语言领域。
开源情况
- 模型不开源,只通过 API 提供。
- 有第三方 SDK:https://github.com/hamzaamjad/mercury-client
- 已有工具集成:ProxyAI, Buildglare, Kilo Code, browser-use。
- 有论文支持:https://arxiv.org/abs/2506.17298
- 自己做的难度:极高。需要深厚的扩散模型研究背景 + 大规模 GPU 训练资源。创始人本身就是发明扩散模型的斯坦福教授。
商业模式
- 变现方式:API 按量计费。
- 定价:$0.25/百万 input tokens, $0.75/百万 output tokens。
- 混合价格:约 $0.38/百万 tokens(极其便宜)。
- 用户量:未公开,但已有多个开发工具集成。
巨头风险
这是个有意思的问题。据说 Google 也在研发 Gemini Diffusion(扩散版 Gemini),如果 Google 出了一个又快又聪明的扩散模型,Inception 的生存空间会被压缩。但目前来看:
- Inception 是第一个把扩散 LLM 做到商用级别的,拥有先发优势。
- 创始团队是该领域的学术权威。
- 投资方包括 Microsoft、NVIDIA、Databricks —— 这些巨头选择投资而不是自己死磕。
- 但如果模型能力上不去(目前只对标 Haiku 级别),仅靠速度优势可能不够。
给产品经理
痛点分析
- 解决什么问题:LLM 推理速度慢 + 成本高,严重限制了 Agent、实时语音、代码补全等高频调用场景的落地。
- 痛点有多痛:非常痛。很多公司想做 AI Agent 但推理延迟让产品体验极差。一个任务可能需要调用 LLM 几十次,每次等 10-20 秒,用户根本没法忍。
用户画像
- 核心用户:AI 应用开发者、Agent 平台、语音 AI 公司。
- 次要用户:代码编辑器/IDE 公司、搜索引擎。
- 使用场景:Agent 循环调用、实时语音对话、代码自动补全、大规模文本处理。
功能拆解
| 功能 | 类型 | 说明 |
|---|---|---|
| 超高速推理 (1000+ t/s) | 核心 | 扩散架构的核心优势 |
| 低成本 ($0.75/M output) | 核心 | 比竞品便宜 4-7 倍 |
| 推理能力 (AIME 91.1) | 核心 | 对标 Haiku 级别 |
| Function Calling | 核心 | Agent 场景必备 |
| JSON 结构化输出 | 核心 | 开发者友好 |
| 128K 上下文 | 锦上添花 | 够用但不突出 |
竞品差异
| 对比项 | Mercury 2 | Groq (Llama) | Cerebras | SambaNova |
|---|---|---|---|---|
| 核心差异 | 模型架构创新 | 硬件加速 (LPU) | 硬件加速 | 硬件加速 |
| 速度来源 | 扩散并行生成 | 专用芯片 | 晶圆级芯片 | 定制处理器 |
| 智力 | 中等 | 取决于加载的模型 | 取决于加载的模型 | 取决于加载的模型 |
| 定价 | $0.75/M output | 各有不同 | 各有不同 | 各有不同 |
| 独特性 | 架构层面创新 | 可跑任何模型 | 可跑任何模型 | 可跑任何模型 |
可借鉴的点
- "速度即功能"的定位:不去卷智力,而是在速度维度做到极致,找到了差异化的切入点。
- 学术团队商业化路径:从论文 → 开源研究 → 商用 API,路径非常清晰。
- 极简定价:只有 input/output 两个价格,没有复杂的套餐,降低了用户的决策成本。
给科技博主
创始人故事
- 创始人:Stefano Ermon (斯坦福教授)、Aditya Grover (UCLA 教授)、Volodymyr Kuleshov (康奈尔教授)。
- 背景:三人合作超过 10 年,是扩散模型、Flash Attention、DPO 等核心 AI 技术的早期研究者。Ermon 本人参与了扩散模型的发明 —— 也就是 Midjourney 和 Sora 背后的核心技术。
- 为什么做这个:学术界证明了扩散可以在图像和视频领域碾压传统方法,他们想在文本领域复制这个奇迹。
- 时间线:2024 年创立 → 2025年2月隐身出道 → 2025年11月融资 $5000万 → 2026年2月发布 Mercury 2。
争议点/讨论角度
- 角度1 - "速度够了,但够聪明吗?":Mercury 2 对标的是 Haiku 级别,不是 Opus 或 GPT-5。对于只需要速度的场景没问题,但能不能胜任更复杂的任务是个问号。
- 角度2 - "扩散 vs 自回归,谁是未来?":这是一个技术路线之争。如果扩散式 LLM 被证明可以在保持速度的同时提升到旗舰模型的智力水平,整个行业格局会被重写。
- 角度3 - "发明者亲自下场":创始人就是扩散模型的发明者之一,自己商业化自己的研究,这个故事自带流量。
- 角度4 - "吴恩达 + Karpathy 同时投了":两位 AI 教父级人物同时押注,信号非常强烈。
热度数据
- PH排名:14票(偏低,产品定位偏 B2B/开发者,不适合 PH 纯消费者受众)。
- Twitter讨论:创始人推文获 3753 个赞;吴恩达转发获 1224 个赞。
- HN讨论:有专门的讨论帖 (item?id=47144464)。
- 媒体覆盖:Bloomberg、TechCrunch、Yahoo Finance 等主流科技媒体广泛报道。
内容建议
- 适合写的角度:技术科普类(扩散模型如何应用到文字生成)、创始人故事类(发明者亲自商业化)、赛道分析类(推理速度竞赛)。
- 蹭热点机会:如果 Google 的 Gemini Diffusion 也发布,可以做对比文章。
给早期采用者
定价分析
| 层级 | 价格 | 包含功能 | 够用吗? |
|---|---|---|---|
| API | $0.25/M input, $0.75/M output | 完整模型能力、128K上下文、function calling、JSON输出 | 对速度敏感的场景完全够用 |
目前只有 API 访问,没有明确的免费层信息。但价格本身已经非常低 —— 生成 100 万个 token(大约一本中等长度的书)只要 $0.75。
上手指南
- 上手时间:10-15 分钟。
- 学习曲线:低(如果你用过 OpenAI API)。
- 步骤:
- 去 https://www.inceptionlabs.ai/ 申请 API key。
- 安装 SDK:
pip install mercury-client。 - 调用方式类似 OpenAI,支持 function calling 和 JSON mode。
- 注意:扩散模型的 prompt 可能需要一些微调,不完全等同于给 GPT 写 prompt。
坑和吐槽
- 过度啰嗦:Mercury 2 倾向于生成很长的输出。在测试中它生成了 6900 万 tokens,而其他模型平均只有 1500 万。你可能需要在 prompt 中明确要求简洁。
- 专业领域鲁棒性存疑:在极小众或高度专业化的推理任务上,可能不如成熟的自回归模型稳定。
- 微调路径不明确:如果你需要微调模型,扩散模型的微调方式跟传统方法不同,目前支持情况不够清晰。
- 生态还在建设中:目前只有 Inception Labs 一家 API 提供商,不像 OpenAI 或 Anthropic 有丰富的第三方工具链。
安全和隐私
- 数据存储:云端 API。
- 隐私政策:需查看 Inception Labs 的具体条款。
- 安全审计:暂无公开信息。
替代方案
| 替代品 | 优势 | 劣势 |
|---|---|---|
| Claude 4.5 Haiku | 生态成熟、品牌信任度高 | 速度慢 13 倍、贵 7 倍 |
| GPT 5.2 Mini | OpenAI 生态、工具链丰富 | 速度慢 15 倍 |
| Groq + Llama | 可选不同模型 | 硬件加速,非架构创新 |
| Gemini 3 Flash | Google 生态、多模态支持 | 贵 4 倍、速度较慢 |
给投资人
市场分析
- 赛道规模:AI 推理市场预计 2030 年将达到 $2550 亿,CAGR 为 19.2%。
- 增长率:推理成本每年下降约 10 倍,3 年可能下降 1000 倍。
- 驱动因素:AI Agent 爆发式增长需要大量低延迟推理;2026 年推理成本将成为核心竞争因素。
竞争格局
| 层级 | 玩家 | 定位 |
|---|---|---|
| 头部 | OpenAI, Anthropic, Google | 全能型,模型智力领先 |
| 速度赛道 | Groq, Cerebras, SambaNova | 硬件加速,跑已有模型 |
| 架构创新 | Inception Labs (Mercury 2) | 扩散式 LLM,从模型层面提速 |
Timing 分析
- 为什么是现在:Agent 成为 2026 年最热的应用方向,但推理延迟和成本是主要瓶颈。Mercury 2 正好切中这个痛点。
- 技术成熟度:扩散 LLM 已有学术论文支撑,Mercury 2 是第一个达到商用标准的实现。
- 市场准备度:开发者已经习惯了 API 调用模式,切换成本低,但需要一定的市场教育。
团队背景
- 创始人:Stefano Ermon (斯坦福)、Aditya Grover (UCLA)、Volodymyr Kuleshov (康奈尔) —— 三位顶级大学教授。
- 核心贡献:扩散模型发明者、Flash Attention、DPO 等核心 AI 技术。
- 过往成绩:学术引用极高,是 AI 领域最有影响力的研究者之一。
融资情况
- 已融资:$5600 万。
- 领投:Menlo Ventures。
- 参投:Mayfield, NVentures (NVIDIA), M12 (Microsoft), Snowflake Ventures, Databricks Investment 等。
- 天使投资人:吴恩达 (Andrew Ng), Andrej Karpathy。
- 共 13 个投资方。
结论
Mercury 2 是一个真正的架构创新产品,不是在老路上修修补补。它的速度优势是碾压级的,但智力水平目前还在 Haiku 级别,未来能否向旗舰模型进化是成功的关键。
| 用户类型 | 建议 |
|---|---|
| 开发者 | ✅ 如果你在做 Agent 或实时应用,必须试试。API 调用方式很熟悉,切换成本极低 |
| 产品经理 | ✅ 重点关注。速度和成本的降低可能解锁之前"想做但做不了"的新产品形态 |
| 博主 | ✅ 绝佳素材。创始人故事 + 技术路线之争 + 大佬背书,内容角度非常丰富 |
| 早期采用者 | ✅ 试一试没坏处,API 很便宜。但别指望它能替代 Claude Opus 处理复杂任务 |
| 投资人 | ✅ 团队顶级、赛道精准、时机恰当。风险在于 Google 等巨头也在布局类似架构 |
资源链接
2026-02-26 | Trend-Tracker v7.3