返回探索

Mercury 2

API

为即时生产级 AI 打造的最快推理大模型

💡 Mercury 是由 Inception Labs 推出的首款商用扩散式大语言模型(Diffusion LLM)。它的推理速度比传统的自回归模型快 10 倍以上,且在编程任务上的表现不相上下甚至更优,是构建实时 AI 应用的理想选择。

"传统 LLM 像是一个字一个字敲的打字员,而 Mercury 2 像是一位自带“全局滤镜”的编辑,先铺好草稿再瞬间完成精修,速度直接起飞。"

30秒快速判断
这App干嘛的:基于扩散模型(Diffusion)架构的超高速 LLM,生成速度突破 1,000 tokens/秒。
值不值得关注:非常值得关注,特别是对于 AI Agent、实时语音和代码补全等对延迟极度敏感的开发者。
8/10

热度

9/10

实用

14

投票

产品画像
完整分析报告

Mercury 2:把扩散模型的思路搬到文字生成,速度快了一个数量级

2026-02-26 | https://www.producthunt.com/products/mercury-2

Mercury 2 聊天界面

Gemini 解读:这是 Inception 的聊天界面,采用极简暗色设计,中央输入框带有"Diffusion Effect"开关和"Mercury 2"模型选择器。整体风格类似 Perplexity,主打简洁和速度体验。


30秒快速判断

这App干嘛的:Inception Labs 做了一个不走寻常路的 LLM —— 它不像传统模型那样一个 token 一个 token 往外蹦,而是像图片扩散模型一样,先生成一个"草稿",然后同时打磨多个 token。结果就是:速度达到 1,000+ tokens/秒,比 Claude Haiku 快 13 倍,比 GPT-5 Mini 快 15 倍。

值不值得关注:值得,但要分情况。

理由

  • 如果你在做 AI Agent、实时语音助手、代码补全这类对延迟极其敏感的应用,这可能是目前性价比最高的选择。
  • 如果你需要的是最聪明的模型(做复杂推理、写长文章),Mercury 2 不是最佳选择 —— 它的智力水平大约对标 Claude Haiku,还没到 Opus 级别。
  • 架构创新本身很有意思,值得开发者关注扩散式 LLM 这个新方向。

和谁比?有什么不同?

速度对比

Gemini 解读:这张速度基准测试图直观展示了 Mercury 2 (1009 t/s) 与 Claude Haiku 4.5 (89 t/s)、GPT-5 Mini (71 t/s) 的巨大差距,标注">5x faster"。

对比项Mercury 2Claude 4.5 HaikuGPT 5.2 Mini
核心差异扩散式架构,并行生成自回归,逐个 token 生成自回归,逐个 token 生成
速度1,196 t/s89 t/s71 t/s
延迟1.7 秒23.4 秒不详
输出价格$0.75/M$5.00/M不详
智力水平中等(AIME 91.1)相当相当
优势极快、极便宜生态成熟、稳定OpenAI 生态

与我有关三问

与我有关吗?

  • 目标用户:做 AI 应用的开发者和公司,特别是对延迟和成本敏感的场景。
  • 我是吗:如果你在做以下事情,Mercury 2 跟你直接相关 ——
    • 构建 AI Agent,需要快速的 LLM 循环调用。
    • 做实时语音助手,不能让用户等 20 秒。
    • 搞代码补全/编辑器插件,需要即时响应。
    • 大规模批处理,推理成本是核心考量。
  • 什么场景会用到
    • Agent 循环 → Mercury 2 的 1.7 秒延迟 vs 别人的 14-23 秒,直接决定了产品能不能用。
    • 实时对话/语音 → 选这个准没错。
    • 代码补全/重构 → 选这个(已集成 ProxyAI、Kilo Code 等工具)。
    • 写深度长文或做复杂分析 → 不太合适,建议用 Claude Opus 或 GPT-5。

对我有用吗?

维度收益代价
时间Agent 循环快 10 倍以上;代码补全几乎即时学习新的 API 接口(不过兼容 OpenAI 格式)
金钱输出成本是 Claude Haiku 的 1/7;是 Gemini Flash 的 1/4按量付费,$0.75/百万 output tokens
精力不用再在"选快的还是选聪明的"之间纠结 —— 需要速度就选它扩散模型的 prompt 技巧可能和传统模型不完全一样

ROI 判断:如果你的应用场景是"调一次 LLM 不够,要反复调几十次"(如 agent、搜索、代码),那 Mercury 2 的 ROI 非常高 —— 同样的事情,成本降 4-7 倍,速度快 5-13 倍。如果你只是偶尔调一次 API 聊天,差别其实不大。

喜闻乐见吗?

爽点在哪

  • 速度带来的体感变化:从"等 AI 回答"变成"AI 秒回",这种体验是质的飞跃。
  • 成本被打下来了:以前 Agent 跑一个复杂任务要好几美元,现在可能只要几毛钱。

"哇"的瞬间

"这速度简直离谱。每秒约 1,000 个 token,端到端延迟仅 1.7 秒。这比其他模型快了一个数量级。" —— @RuiDiaoX

用户真实评价

正面:"Inception Labs 扩散式 LLM 的推理速度令人印象深刻。它是传统自回归 LLM 之外一个极具吸引力的选择。干得漂亮!" —— @AndrewYNg (吴恩达,1224 个赞)

正面:"试过 Mercury 之后就再也回不去了。我们非常激动能用它来支持我们所有的语音 Agent。" —— 客户反馈 (Inception Labs 官网)

观望:"这是一个非常有前景的方法,希望他们能做出更大、更强的模型。如果能达到 Qwen3.5 34B 的水平,家用电脑也能跑起 TurboTokens 了。" —— @TeksEdge


给独立开发者

技术栈

  • 核心架构:扩散式大语言模型(diffusion LLM / dLLM),区别于传统自回归。
  • 工作原理:从噪声出发,通过 Transformer 网络多步去噪,同时修改多个 token —— 类似 Midjourney 生成图片的方式,但应用于文本。
  • GPU:在 NVIDIA Blackwell GPU 上运行。
  • API 格式:通过 Inception API 提供,支持 128K 上下文窗口。
  • 功能支持:工具调用 (function calling)、JSON 结构化输出。

扩散 vs 自回归对比

Gemini 解读:左侧自回归 LLM 需要 75 次迭代完成代码生成,右侧 Inception Diffusion LLM 只需 14 次迭代完成相同任务,效率提升 5 倍以上。

核心功能实现

说白了就是:传统 LLM 像打字员,一个字一个字敲;Mercury 2 像编辑,先快速写一个粗稿,然后同时修改所有需要改的地方。每一步都能并行处理多个 token,所以单次神经网络推理产出的有效工作量远远超过自回归模型。

这不是在现有架构上做优化(比如更好的 GPU、模型压缩),而是从根本上换了一条路。扩散技术在图像和视频生成上已经证明了自己(Midjourney、Sora),现在 Inception 把它搬到了语言领域。

开源情况

  • 模型不开源,只通过 API 提供。
  • 有第三方 SDKhttps://github.com/hamzaamjad/mercury-client
  • 已有工具集成:ProxyAI, Buildglare, Kilo Code, browser-use。
  • 有论文支持https://arxiv.org/abs/2506.17298
  • 自己做的难度:极高。需要深厚的扩散模型研究背景 + 大规模 GPU 训练资源。创始人本身就是发明扩散模型的斯坦福教授。

商业模式

  • 变现方式:API 按量计费。
  • 定价:$0.25/百万 input tokens, $0.75/百万 output tokens。
  • 混合价格:约 $0.38/百万 tokens(极其便宜)。
  • 用户量:未公开,但已有多个开发工具集成。

巨头风险

这是个有意思的问题。据说 Google 也在研发 Gemini Diffusion(扩散版 Gemini),如果 Google 出了一个又快又聪明的扩散模型,Inception 的生存空间会被压缩。但目前来看:

  1. Inception 是第一个把扩散 LLM 做到商用级别的,拥有先发优势。
  2. 创始团队是该领域的学术权威。
  3. 投资方包括 Microsoft、NVIDIA、Databricks —— 这些巨头选择投资而不是自己死磕。
  4. 但如果模型能力上不去(目前只对标 Haiku 级别),仅靠速度优势可能不够。

给产品经理

痛点分析

  • 解决什么问题:LLM 推理速度慢 + 成本高,严重限制了 Agent、实时语音、代码补全等高频调用场景的落地。
  • 痛点有多痛:非常痛。很多公司想做 AI Agent 但推理延迟让产品体验极差。一个任务可能需要调用 LLM 几十次,每次等 10-20 秒,用户根本没法忍。

用户画像

  • 核心用户:AI 应用开发者、Agent 平台、语音 AI 公司。
  • 次要用户:代码编辑器/IDE 公司、搜索引擎。
  • 使用场景:Agent 循环调用、实时语音对话、代码自动补全、大规模文本处理。

功能拆解

功能类型说明
超高速推理 (1000+ t/s)核心扩散架构的核心优势
低成本 ($0.75/M output)核心比竞品便宜 4-7 倍
推理能力 (AIME 91.1)核心对标 Haiku 级别
Function Calling核心Agent 场景必备
JSON 结构化输出核心开发者友好
128K 上下文锦上添花够用但不突出

竞品差异

对比项Mercury 2Groq (Llama)CerebrasSambaNova
核心差异模型架构创新硬件加速 (LPU)硬件加速硬件加速
速度来源扩散并行生成专用芯片晶圆级芯片定制处理器
智力中等取决于加载的模型取决于加载的模型取决于加载的模型
定价$0.75/M output各有不同各有不同各有不同
独特性架构层面创新可跑任何模型可跑任何模型可跑任何模型

可借鉴的点

  1. "速度即功能"的定位:不去卷智力,而是在速度维度做到极致,找到了差异化的切入点。
  2. 学术团队商业化路径:从论文 → 开源研究 → 商用 API,路径非常清晰。
  3. 极简定价:只有 input/output 两个价格,没有复杂的套餐,降低了用户的决策成本。

给科技博主

创始人故事

  • 创始人:Stefano Ermon (斯坦福教授)、Aditya Grover (UCLA 教授)、Volodymyr Kuleshov (康奈尔教授)。
  • 背景:三人合作超过 10 年,是扩散模型、Flash Attention、DPO 等核心 AI 技术的早期研究者。Ermon 本人参与了扩散模型的发明 —— 也就是 Midjourney 和 Sora 背后的核心技术。
  • 为什么做这个:学术界证明了扩散可以在图像和视频领域碾压传统方法,他们想在文本领域复制这个奇迹。
  • 时间线:2024 年创立 → 2025年2月隐身出道 → 2025年11月融资 $5000万 → 2026年2月发布 Mercury 2。

争议点/讨论角度

  • 角度1 - "速度够了,但够聪明吗?":Mercury 2 对标的是 Haiku 级别,不是 Opus 或 GPT-5。对于只需要速度的场景没问题,但能不能胜任更复杂的任务是个问号。
  • 角度2 - "扩散 vs 自回归,谁是未来?":这是一个技术路线之争。如果扩散式 LLM 被证明可以在保持速度的同时提升到旗舰模型的智力水平,整个行业格局会被重写。
  • 角度3 - "发明者亲自下场":创始人就是扩散模型的发明者之一,自己商业化自己的研究,这个故事自带流量。
  • 角度4 - "吴恩达 + Karpathy 同时投了":两位 AI 教父级人物同时押注,信号非常强烈。

热度数据

  • PH排名:14票(偏低,产品定位偏 B2B/开发者,不适合 PH 纯消费者受众)。
  • Twitter讨论:创始人推文获 3753 个赞;吴恩达转发获 1224 个赞。
  • HN讨论:有专门的讨论帖 (item?id=47144464)。
  • 媒体覆盖:Bloomberg、TechCrunch、Yahoo Finance 等主流科技媒体广泛报道。

内容建议

  • 适合写的角度:技术科普类(扩散模型如何应用到文字生成)、创始人故事类(发明者亲自商业化)、赛道分析类(推理速度竞赛)。
  • 蹭热点机会:如果 Google 的 Gemini Diffusion 也发布,可以做对比文章。

给早期采用者

定价分析

层级价格包含功能够用吗?
API$0.25/M input, $0.75/M output完整模型能力、128K上下文、function calling、JSON输出对速度敏感的场景完全够用

目前只有 API 访问,没有明确的免费层信息。但价格本身已经非常低 —— 生成 100 万个 token(大约一本中等长度的书)只要 $0.75。

上手指南

  • 上手时间:10-15 分钟。
  • 学习曲线:低(如果你用过 OpenAI API)。
  • 步骤
    1. https://www.inceptionlabs.ai/ 申请 API key。
    2. 安装 SDK:pip install mercury-client
    3. 调用方式类似 OpenAI,支持 function calling 和 JSON mode。
    4. 注意:扩散模型的 prompt 可能需要一些微调,不完全等同于给 GPT 写 prompt。

坑和吐槽

  1. 过度啰嗦:Mercury 2 倾向于生成很长的输出。在测试中它生成了 6900 万 tokens,而其他模型平均只有 1500 万。你可能需要在 prompt 中明确要求简洁。
  2. 专业领域鲁棒性存疑:在极小众或高度专业化的推理任务上,可能不如成熟的自回归模型稳定。
  3. 微调路径不明确:如果你需要微调模型,扩散模型的微调方式跟传统方法不同,目前支持情况不够清晰。
  4. 生态还在建设中:目前只有 Inception Labs 一家 API 提供商,不像 OpenAI 或 Anthropic 有丰富的第三方工具链。

安全和隐私

  • 数据存储:云端 API。
  • 隐私政策:需查看 Inception Labs 的具体条款。
  • 安全审计:暂无公开信息。

替代方案

替代品优势劣势
Claude 4.5 Haiku生态成熟、品牌信任度高速度慢 13 倍、贵 7 倍
GPT 5.2 MiniOpenAI 生态、工具链丰富速度慢 15 倍
Groq + Llama可选不同模型硬件加速,非架构创新
Gemini 3 FlashGoogle 生态、多模态支持贵 4 倍、速度较慢

给投资人

市场分析

  • 赛道规模:AI 推理市场预计 2030 年将达到 $2550 亿,CAGR 为 19.2%。
  • 增长率:推理成本每年下降约 10 倍,3 年可能下降 1000 倍。
  • 驱动因素:AI Agent 爆发式增长需要大量低延迟推理;2026 年推理成本将成为核心竞争因素。

竞争格局

层级玩家定位
头部OpenAI, Anthropic, Google全能型,模型智力领先
速度赛道Groq, Cerebras, SambaNova硬件加速,跑已有模型
架构创新Inception Labs (Mercury 2)扩散式 LLM,从模型层面提速

Timing 分析

  • 为什么是现在:Agent 成为 2026 年最热的应用方向,但推理延迟和成本是主要瓶颈。Mercury 2 正好切中这个痛点。
  • 技术成熟度:扩散 LLM 已有学术论文支撑,Mercury 2 是第一个达到商用标准的实现。
  • 市场准备度:开发者已经习惯了 API 调用模式,切换成本低,但需要一定的市场教育。

团队背景

  • 创始人:Stefano Ermon (斯坦福)、Aditya Grover (UCLA)、Volodymyr Kuleshov (康奈尔) —— 三位顶级大学教授。
  • 核心贡献:扩散模型发明者、Flash Attention、DPO 等核心 AI 技术。
  • 过往成绩:学术引用极高,是 AI 领域最有影响力的研究者之一。

融资情况

  • 已融资:$5600 万。
  • 领投:Menlo Ventures。
  • 参投:Mayfield, NVentures (NVIDIA), M12 (Microsoft), Snowflake Ventures, Databricks Investment 等。
  • 天使投资人:吴恩达 (Andrew Ng), Andrej Karpathy。
  • 共 13 个投资方

结论

Mercury 2 是一个真正的架构创新产品,不是在老路上修修补补。它的速度优势是碾压级的,但智力水平目前还在 Haiku 级别,未来能否向旗舰模型进化是成功的关键。

用户类型建议
开发者✅ 如果你在做 Agent 或实时应用,必须试试。API 调用方式很熟悉,切换成本极低
产品经理✅ 重点关注。速度和成本的降低可能解锁之前"想做但做不了"的新产品形态
博主✅ 绝佳素材。创始人故事 + 技术路线之争 + 大佬背书,内容角度非常丰富
早期采用者✅ 试一试没坏处,API 很便宜。但别指望它能替代 Claude Opus 处理复杂任务
投资人✅ 团队顶级、赛道精准、时机恰当。风险在于 Google 等巨头也在布局类似架构

资源链接

资源链接
官网https://www.inceptionlabs.ai/
博客https://www.inceptionlabs.ai/blog/introducing-mercury-2
Artificial Analysishttps://artificialanalysis.ai/models/mercury-2
论文https://arxiv.org/abs/2506.17298
Python SDKhttps://github.com/hamzaamjad/mercury-client
HN 讨论https://news.ycombinator.com/item?id=47144464
ProductHunthttps://www.producthunt.com/products/mercury-2
创始人 Twitterhttps://twitter.com/StefanoErmon

2026-02-26 | Trend-Tracker v7.3

一句话判断

Mercury 2 是 LLM 架构层面的重大创新,凭借极致的速度和成本优势,在 Agent 和实时交互领域具有极强竞争力,未来潜力取决于其智力水平的持续进化。

常见问题

关于 Mercury 2 的常见问题

基于扩散模型(Diffusion)架构的超高速 LLM,生成速度突破 1,000 tokens/秒。

Mercury 2 的主要功能包括:1000+ t/s 推理速度、极低输出成本、Function Calling、JSON 结构化输出、128K 上下文。

$0.25/百万 input tokens, $0.75/百万 output tokens。

AI 应用开发者、Agent 平台、语音 AI 公司及 IDE 插件开发者。

Mercury 2 的主要竞品包括:Groq, Cerebras, SambaNova (硬件加速类); Claude Haiku, GPT Mini (轻量模型类)。

数据来源: ProductHunt2026年2月26日
最后更新: