Mercury 2 是什么？

基于扩散模型（Diffusion）架构的超高速 LLM，生成速度突破 1,000 tokens/秒。

Mercury 2 有哪些主要功能？

Mercury 2 的主要功能包括：1000+ t/s 推理速度、极低输出成本、Function Calling、JSON 结构化输出、128K 上下文。

Mercury 2 如何收费？

$0.25/百万 input tokens, $0.75/百万 output tokens。

Mercury 2 适合谁使用？

AI 应用开发者、Agent 平台、语音 AI 公司及 IDE 插件开发者。

Mercury 2 有哪些竞品？

Mercury 2 的主要竞品包括：Groq, Cerebras, SambaNova (硬件加速类); Claude Haiku, GPT Mini (轻量模型类)。

Mercury 2：把扩散模型的思路搬到文字生成，速度快了一个数量级

2026-02-26 | https://www.producthunt.com/products/mercury-2

Mercury 2 聊天界面

Gemini 解读：这是 Inception 的聊天界面，采用极简暗色设计，中央输入框带有"Diffusion Effect"开关和"Mercury 2"模型选择器。整体风格类似 Perplexity，主打简洁和速度体验。

30秒快速判断

这App干嘛的：Inception Labs 做了一个不走寻常路的 LLM —— 它不像传统模型那样一个 token 一个 token 往外蹦，而是像图片扩散模型一样，先生成一个"草稿"，然后同时打磨多个 token。结果就是：速度达到 1,000+ tokens/秒，比 Claude Haiku 快 13 倍，比 GPT-5 Mini 快 15 倍。

值不值得关注：值得，但要分情况。

理由：

如果你在做 AI Agent、实时语音助手、代码补全这类对延迟极其敏感的应用，这可能是目前性价比最高的选择。
如果你需要的是最聪明的模型（做复杂推理、写长文章），Mercury 2 不是最佳选择 —— 它的智力水平大约对标 Claude Haiku，还没到 Opus 级别。
架构创新本身很有意思，值得开发者关注扩散式 LLM 这个新方向。

和谁比？有什么不同？

速度对比

Gemini 解读：这张速度基准测试图直观展示了 Mercury 2 (1009 t/s) 与 Claude Haiku 4.5 (89 t/s)、GPT-5 Mini (71 t/s) 的巨大差距，标注">5x faster"。

对比项	Mercury 2	Claude 4.5 Haiku	GPT 5.2 Mini
核心差异	扩散式架构，并行生成	自回归，逐个 token 生成	自回归，逐个 token 生成
速度	1,196 t/s	89 t/s	71 t/s
延迟	1.7 秒	23.4 秒	不详
输出价格	$0.75/M	$5.00/M	不详
智力水平	中等（AIME 91.1）	相当	相当
优势	极快、极便宜	生态成熟、稳定	OpenAI 生态

与我有关三问

与我有关吗？

目标用户：做 AI 应用的开发者和公司，特别是对延迟和成本敏感的场景。
我是吗：如果你在做以下事情，Mercury 2 跟你直接相关 ——
- 构建 AI Agent，需要快速的 LLM 循环调用。
- 做实时语音助手，不能让用户等 20 秒。
- 搞代码补全/编辑器插件，需要即时响应。
- 大规模批处理，推理成本是核心考量。
什么场景会用到：
- Agent 循环 → Mercury 2 的 1.7 秒延迟 vs 别人的 14-23 秒，直接决定了产品能不能用。
- 实时对话/语音 → 选这个准没错。
- 代码补全/重构 → 选这个（已集成 ProxyAI、Kilo Code 等工具）。
- 写深度长文或做复杂分析 → 不太合适，建议用 Claude Opus 或 GPT-5。

对我有用吗？

维度	收益	代价
时间	Agent 循环快 10 倍以上；代码补全几乎即时	学习新的 API 接口（不过兼容 OpenAI 格式）
金钱	输出成本是 Claude Haiku 的 1/7；是 Gemini Flash 的 1/4	按量付费，$0.75/百万 output tokens
精力	不用再在"选快的还是选聪明的"之间纠结 —— 需要速度就选它	扩散模型的 prompt 技巧可能和传统模型不完全一样

ROI 判断：如果你的应用场景是"调一次 LLM 不够，要反复调几十次"（如 agent、搜索、代码），那 Mercury 2 的 ROI 非常高 —— 同样的事情，成本降 4-7 倍，速度快 5-13 倍。如果你只是偶尔调一次 API 聊天，差别其实不大。

喜闻乐见吗？

爽点在哪：

速度带来的体感变化：从"等 AI 回答"变成"AI 秒回"，这种体验是质的飞跃。
成本被打下来了：以前 Agent 跑一个复杂任务要好几美元，现在可能只要几毛钱。

"哇"的瞬间：

"这速度简直离谱。每秒约 1,000 个 token，端到端延迟仅 1.7 秒。这比其他模型快了一个数量级。" —— @RuiDiaoX

用户真实评价：

正面："Inception Labs 扩散式 LLM 的推理速度令人印象深刻。它是传统自回归 LLM 之外一个极具吸引力的选择。干得漂亮！" —— @AndrewYNg (吴恩达，1224 个赞)

正面："试过 Mercury 之后就再也回不去了。我们非常激动能用它来支持我们所有的语音 Agent。" —— 客户反馈 (Inception Labs 官网)

观望："这是一个非常有前景的方法，希望他们能做出更大、更强的模型。如果能达到 Qwen3.5 34B 的水平，家用电脑也能跑起 TurboTokens 了。" —— @TeksEdge

给独立开发者

技术栈

核心架构：扩散式大语言模型（diffusion LLM / dLLM），区别于传统自回归。
工作原理：从噪声出发，通过 Transformer 网络多步去噪，同时修改多个 token —— 类似 Midjourney 生成图片的方式，但应用于文本。
GPU：在 NVIDIA Blackwell GPU 上运行。
API 格式：通过 Inception API 提供，支持 128K 上下文窗口。
功能支持：工具调用 (function calling)、JSON 结构化输出。

扩散 vs 自回归对比

Gemini 解读：左侧自回归 LLM 需要 75 次迭代完成代码生成，右侧 Inception Diffusion LLM 只需 14 次迭代完成相同任务，效率提升 5 倍以上。

核心功能实现

说白了就是：传统 LLM 像打字员，一个字一个字敲；Mercury 2 像编辑，先快速写一个粗稿，然后同时修改所有需要改的地方。每一步都能并行处理多个 token，所以单次神经网络推理产出的有效工作量远远超过自回归模型。

这不是在现有架构上做优化（比如更好的 GPU、模型压缩），而是从根本上换了一条路。扩散技术在图像和视频生成上已经证明了自己（Midjourney、Sora），现在 Inception 把它搬到了语言领域。

开源情况

模型不开源，只通过 API 提供。
有第三方 SDK：https://github.com/hamzaamjad/mercury-client
已有工具集成：ProxyAI, Buildglare, Kilo Code, browser-use。
有论文支持：https://arxiv.org/abs/2506.17298
自己做的难度：极高。需要深厚的扩散模型研究背景 + 大规模 GPU 训练资源。创始人本身就是发明扩散模型的斯坦福教授。

商业模式

变现方式：API 按量计费。
定价：$0.25/百万 input tokens, $0.75/百万 output tokens。
混合价格：约 $0.38/百万 tokens（极其便宜）。
用户量：未公开，但已有多个开发工具集成。

巨头风险

这是个有意思的问题。据说 Google 也在研发 Gemini Diffusion（扩散版 Gemini），如果 Google 出了一个又快又聪明的扩散模型，Inception 的生存空间会被压缩。但目前来看：

Inception 是第一个把扩散 LLM 做到商用级别的，拥有先发优势。
创始团队是该领域的学术权威。
投资方包括 Microsoft、NVIDIA、Databricks —— 这些巨头选择投资而不是自己死磕。
但如果模型能力上不去（目前只对标 Haiku 级别），仅靠速度优势可能不够。

给产品经理

痛点分析

解决什么问题：LLM 推理速度慢 + 成本高，严重限制了 Agent、实时语音、代码补全等高频调用场景的落地。
痛点有多痛：非常痛。很多公司想做 AI Agent 但推理延迟让产品体验极差。一个任务可能需要调用 LLM 几十次，每次等 10-20 秒，用户根本没法忍。

用户画像

核心用户：AI 应用开发者、Agent 平台、语音 AI 公司。
次要用户：代码编辑器/IDE 公司、搜索引擎。
使用场景：Agent 循环调用、实时语音对话、代码自动补全、大规模文本处理。

功能拆解

功能	类型	说明
超高速推理 (1000+ t/s)	核心	扩散架构的核心优势
低成本 ($0.75/M output)	核心	比竞品便宜 4-7 倍
推理能力 (AIME 91.1)	核心	对标 Haiku 级别
Function Calling	核心	Agent 场景必备
JSON 结构化输出	核心	开发者友好
128K 上下文	锦上添花	够用但不突出

竞品差异

对比项	Mercury 2	Groq (Llama)	Cerebras	SambaNova
核心差异	模型架构创新	硬件加速 (LPU)	硬件加速	硬件加速
速度来源	扩散并行生成	专用芯片	晶圆级芯片	定制处理器
智力	中等	取决于加载的模型	取决于加载的模型	取决于加载的模型
定价	$0.75/M output	各有不同	各有不同	各有不同
独特性	架构层面创新	可跑任何模型	可跑任何模型	可跑任何模型

可借鉴的点

"速度即功能"的定位：不去卷智力，而是在速度维度做到极致，找到了差异化的切入点。
学术团队商业化路径：从论文 → 开源研究 → 商用 API，路径非常清晰。
极简定价：只有 input/output 两个价格，没有复杂的套餐，降低了用户的决策成本。

给科技博主

创始人故事

创始人：Stefano Ermon (斯坦福教授)、Aditya Grover (UCLA 教授)、Volodymyr Kuleshov (康奈尔教授)。
背景：三人合作超过 10 年，是扩散模型、Flash Attention、DPO 等核心 AI 技术的早期研究者。Ermon 本人参与了扩散模型的发明 —— 也就是 Midjourney 和 Sora 背后的核心技术。
为什么做这个：学术界证明了扩散可以在图像和视频领域碾压传统方法，他们想在文本领域复制这个奇迹。
时间线：2024 年创立 → 2025年2月隐身出道 → 2025年11月融资 $5000万 → 2026年2月发布 Mercury 2。

争议点/讨论角度

角度1 - "速度够了，但够聪明吗？"：Mercury 2 对标的是 Haiku 级别，不是 Opus 或 GPT-5。对于只需要速度的场景没问题，但能不能胜任更复杂的任务是个问号。
角度2 - "扩散 vs 自回归，谁是未来？"：这是一个技术路线之争。如果扩散式 LLM 被证明可以在保持速度的同时提升到旗舰模型的智力水平，整个行业格局会被重写。
角度3 - "发明者亲自下场"：创始人就是扩散模型的发明者之一，自己商业化自己的研究，这个故事自带流量。
角度4 - "吴恩达 + Karpathy 同时投了"：两位 AI 教父级人物同时押注，信号非常强烈。

热度数据

PH排名：14票（偏低，产品定位偏 B2B/开发者，不适合 PH 纯消费者受众）。
Twitter讨论：创始人推文获 3753 个赞；吴恩达转发获 1224 个赞。
HN讨论：有专门的讨论帖 (item?id=47144464)。
媒体覆盖：Bloomberg、TechCrunch、Yahoo Finance 等主流科技媒体广泛报道。

内容建议

适合写的角度：技术科普类（扩散模型如何应用到文字生成）、创始人故事类（发明者亲自商业化）、赛道分析类（推理速度竞赛）。
蹭热点机会：如果 Google 的 Gemini Diffusion 也发布，可以做对比文章。

给早期采用者

定价分析

层级	价格	包含功能	够用吗？
API	$0.25/M input, $0.75/M output	完整模型能力、128K上下文、function calling、JSON输出	对速度敏感的场景完全够用

目前只有 API 访问，没有明确的免费层信息。但价格本身已经非常低 —— 生成 100 万个 token（大约一本中等长度的书）只要 $0.75。

上手指南

上手时间：10-15 分钟。
学习曲线：低（如果你用过 OpenAI API）。
步骤：
1. 去 https://www.inceptionlabs.ai/ 申请 API key。
2. 安装 SDK：pip install mercury-client。
3. 调用方式类似 OpenAI，支持 function calling 和 JSON mode。
4. 注意：扩散模型的 prompt 可能需要一些微调，不完全等同于给 GPT 写 prompt。

坑和吐槽

过度啰嗦：Mercury 2 倾向于生成很长的输出。在测试中它生成了 6900 万 tokens，而其他模型平均只有 1500 万。你可能需要在 prompt 中明确要求简洁。
专业领域鲁棒性存疑：在极小众或高度专业化的推理任务上，可能不如成熟的自回归模型稳定。
微调路径不明确：如果你需要微调模型，扩散模型的微调方式跟传统方法不同，目前支持情况不够清晰。
生态还在建设中：目前只有 Inception Labs 一家 API 提供商，不像 OpenAI 或 Anthropic 有丰富的第三方工具链。

安全和隐私

数据存储：云端 API。
隐私政策：需查看 Inception Labs 的具体条款。
安全审计：暂无公开信息。

替代方案

替代品	优势	劣势
Claude 4.5 Haiku	生态成熟、品牌信任度高	速度慢 13 倍、贵 7 倍
GPT 5.2 Mini	OpenAI 生态、工具链丰富	速度慢 15 倍
Groq + Llama	可选不同模型	硬件加速，非架构创新
Gemini 3 Flash	Google 生态、多模态支持	贵 4 倍、速度较慢

给投资人

市场分析

赛道规模：AI 推理市场预计 2030 年将达到 $2550 亿，CAGR 为 19.2%。
增长率：推理成本每年下降约 10 倍，3 年可能下降 1000 倍。
驱动因素：AI Agent 爆发式增长需要大量低延迟推理；2026 年推理成本将成为核心竞争因素。

竞争格局

层级	玩家	定位
头部	OpenAI, Anthropic, Google	全能型，模型智力领先
速度赛道	Groq, Cerebras, SambaNova	硬件加速，跑已有模型
架构创新	Inception Labs (Mercury 2)	扩散式 LLM，从模型层面提速

Timing 分析

为什么是现在：Agent 成为 2026 年最热的应用方向，但推理延迟和成本是主要瓶颈。Mercury 2 正好切中这个痛点。
技术成熟度：扩散 LLM 已有学术论文支撑，Mercury 2 是第一个达到商用标准的实现。
市场准备度：开发者已经习惯了 API 调用模式，切换成本低，但需要一定的市场教育。

团队背景

创始人：Stefano Ermon (斯坦福)、Aditya Grover (UCLA)、Volodymyr Kuleshov (康奈尔) —— 三位顶级大学教授。
核心贡献：扩散模型发明者、Flash Attention、DPO 等核心 AI 技术。
过往成绩：学术引用极高，是 AI 领域最有影响力的研究者之一。

融资情况

已融资：$5600 万。
领投：Menlo Ventures。
参投：Mayfield, NVentures (NVIDIA), M12 (Microsoft), Snowflake Ventures, Databricks Investment 等。
天使投资人：吴恩达 (Andrew Ng), Andrej Karpathy。
共 13 个投资方。

结论

Mercury 2 是一个真正的架构创新产品，不是在老路上修修补补。它的速度优势是碾压级的，但智力水平目前还在 Haiku 级别，未来能否向旗舰模型进化是成功的关键。

用户类型	建议
开发者	✅ 如果你在做 Agent 或实时应用，必须试试。API 调用方式很熟悉，切换成本极低
产品经理	✅ 重点关注。速度和成本的降低可能解锁之前"想做但做不了"的新产品形态
博主	✅ 绝佳素材。创始人故事 + 技术路线之争 + 大佬背书，内容角度非常丰富
早期采用者	✅ 试一试没坏处，API 很便宜。但别指望它能替代 Claude Opus 处理复杂任务
投资人	✅ 团队顶级、赛道精准、时机恰当。风险在于 Google 等巨头也在布局类似架构

资源链接

资源	链接
官网	https://www.inceptionlabs.ai/
博客	https://www.inceptionlabs.ai/blog/introducing-mercury-2
Artificial Analysis	https://artificialanalysis.ai/models/mercury-2
论文	https://arxiv.org/abs/2506.17298
Python SDK	https://github.com/hamzaamjad/mercury-client
HN 讨论	https://news.ycombinator.com/item?id=47144464
ProductHunt	https://www.producthunt.com/products/mercury-2
创始人 Twitter	https://twitter.com/StefanoErmon

2026-02-26 | Trend-Tracker v7.3

Mercury 2