IonRouter:半价推理的技术赌注,赌的是 Grace Hopper 能干翻 H100
2026-03-12 | Product Hunt | 官网 | 技术博客

四步上手:注册 → 拿 API key → 调接口 → 按量付费。Slogan 很直接:"无闲置成本。无需 GPU 设置。只看结果。"
30秒快速判断
这东西干嘛的:一个 OpenAI 格式兼容的 API 网关,让你用半价调用 Kimi、Qwen、GLM、Wan 等开源模型。背后跑的不是 vLLM 也不是 TGI,而是他们自研的 C++ 推理引擎 IonAttention,专门给 NVIDIA Grace Hopper 芯片写的。
值不值得关注:如果你是重度开源模型用户,每月 API 花费超过 $500,值得试试。但产品刚上线,模型种类偏少(主打中国模型),稳定性待验证。YC W26 加持,不是草台班子,但也才两个人。
与我有关三问
与我有关吗?
目标用户是谁:
- 正在用 OpenRouter/Together AI 跑开源模型的开发团队
- 需要跑 LLM + 视觉 + 视频 + TTS 多模态推理的应用
- 想把 finetune 模型部署上线但不想管 GPU 的人
我是目标用户吗:
- 如果你每天调 Qwen/Kimi/GLM 的 API → 你是,直接省一半钱
- 如果你在做多模态 Agent(文字+图片+视频)→ 你是,一个 API 搞定
- 如果你主要用 Claude/GPT-4o 闭源模型 → 不是,IonRouter 只做开源模型
对我有用吗?
| 维度 | 收益 | 代价 |
|---|---|---|
| 金钱 | API 成本直降 50%($0.20/1M vs $0.40/1M) | 免费注册,按量付费 |
| 时间 | OpenAI 格式兼容,改个 base_url 就行 | 学习成本约 5 分钟 |
| 精力 | 不用自己管 GPU、不用搞模型部署 | 需要信任一个两人团队的新产品 |
ROI 判断:如果你月花 $1000 在 OpenRouter 上跑开源模型,切过来直接省 $500/月。迁移成本几乎为零(改一行 base_url)。但风险是产品太新,稳定性没经过大规模验证。建议先小规模试用,跑一周看看延迟和可用性。
喜闻乐见吗?
爽点在哪:
- 半价就是正义:同样的模型,花一半钱,这是最直接的爽点
- 速度确实快:IonAttention 在 Qwen2.5-7B 上跑出 7,167 tok/s,比 Together AI 的 298 tok/s 快了一倍(同等条件下 588 tok/s vs 298 tok/s)
- 多模态一站式:LLM、视觉、视频、TTS 一个 API 搞定,不用到处找提供商
用户怎么说:
"KimiK2.5 速度快得惊人——比 OpenRouter 好用多了" — @VeerCumulus(注意:这是创始人自己说的)
"在上面跑 Kimi 只花了我 $0.20(输入)/$1.60(输出)" — @2uryaa(联合创始人,用 IonRouter 跑了 Kimi + TTS + Wan2.2 视频生成,总花费极低)
"纸面上看半价确实很诱人,但我很好奇当负载规模扩大后,价格和性能能否保持稳定。" — PH 匿名用户(说出了很多人的担心)
说实话,目前真实的第三方用户评价几乎没有。Twitter 上关于 IonRouter 的讨论非常少,其中一半来自创始人自己。产品太新了。
给独立开发者
技术栈
- 推理引擎:IonAttention — C++ 从零构建,不是 fork vLLM 或 TGI
- 目标硬件:NVIDIA Grace Hopper (GH200) — 99GB HBM3 + 452GB LPDDR5X,900GB/s 一致性链路
- API 层:OpenAI 格式兼容
- 核心优化三板斧:
- Coherent CUDA Graphs:利用 NVLink-C2C 硬件一致性,零成本更新图参数
- Eager KV Writeback:KV cache 后台异步写入 LPDDR5X,驱逐延迟从 10ms 降到 <0.25ms
- Phantom-Tile Scheduling:小批量时故意过量分配 GPU 网格,Attention 计算时间减少 60%+

Qwen2.5-7B 达到 7,167 tok/s,单芯片无张量并行。三大核心技术清晰展示。
核心功能怎么实现的
说白了,Cumulus 赌的是一个赛道:GH200 被市场低估了。
大部分推理服务商把 GH200 当成“带更多内存的 H100”来用,但 GH200 的独特之处在于 CPU-GPU 一致性内存架构——CPU 和 GPU 共享同一个页表,可以零拷贝互访数据。IonAttention 就是围绕这个特性从底层重写的推理引擎。
他们试过 fork 开源方案然后打补丁,发现行不通,最后从零写了一个 C++ runtime。这是个很重的技术决策,但也是他们的核心壁垒。
开源情况
- IonRouter/IonAttention 完全闭源
- GitHub 上 cumulus-compute-labs 只有 3 个公开 repo,全是杂项(一个 Garry Tan 的数据集、一个 CRIU GPU 迁移 fork、一个 .github 配置)
- 类似开源项目:vLLM、TGI (Text Generation Inference)、SGLang、TensorRT-LLM
- 自己做难度:极高。需要精通 CUDA/C++ 底层优化 + GH200 硬件架构,2-3 名顶级系统工程师至少 6-12 个月
商业模式

| 模型类型 | IonRouter | OpenRouter | 节省 |
|---|---|---|---|
| 标准 LLM (Qwen 3.5 122B / Kimi K2.5) | $0.20/1M tokens | $0.40/1M | 50% |
| 视觉 LLM (Qwen3-VL-30B) | $0.040/1M | $0.080/1M | 50% |
| 文本转视频 (Wan2.2) | 约 $0.03/片段 | 约 $0.06/片段 | 50% |
变现方式很简单:低成本推理赚差价。他们的 IonAttention 引擎能在同一块 GPU 上 <100ms 切换模型,GPU 利用率更高,所以能给出更低价格还有利润。
巨头风险
中等偏高。这个赛道的大玩家太多了:
- NVIDIA 自己的 TensorRT-LLM 在持续优化
- 一线云厂 (AWS Inferentia、Google TPU) 有自研芯片
- Together AI ($1.25B 估值) 和 Modal ($2.5B 估值) 都在这个赛道
- 但 Cumulus 的差异化在于「GH200 专属优化」——如果 GH200 成为主流推理芯片,他们可能吃到红利;如果 H100/H200/Blackwell 继续主导,这个赌注就可能失败
给产品经理
痛点分析
- 核心痛点:AI 推理太贵了。企业用 OpenRouter/Together AI 跑开源模型,价格虽然比闭源便宜,但量大了也是真金白银
- 痛点等级:高频刚需。每一次 API 调用都在花钱,省 50% 是实打实的利润
- 次要痛点:多模态整合麻烦。LLM 用一家、视觉用一家、TTS 用另一家,IonRouter 一个 API 全搞定
用户画像
- AI SaaS 团队:日调用百万级,对成本极度敏感
- 独立开发者/小团队:用 OpenRouter 跑开源模型,月账单 $200-2000
- 多模态应用开发者:需要同时调 LLM + Vision + Video + TTS
功能拆解
| 功能 | 类型 | 说明 |
|---|---|---|
| OpenAI 格式 API | 核心 | 改一行 base_url 就能迁移 |
| 开源模型推理 | 核心 | Kimi、Qwen、GLM、Wan 等 |
| 自定义 Finetune 部署 | 核心 | 上传模型,他们负责优化和扩缩容 |
| 多模态支持 | 核心 | LLM + Vision + Video + TTS |
| Serverless 扩缩容 | 锦上添花 | Scale-to-zero,按秒计费 |
竞品差异
| 维度 | IonRouter | OpenRouter | Together AI | Modal |
|---|---|---|---|---|
| 定位 | 低成本高性能推理 | 模型路由聚合 | 开源模型推理+训练 | GPU Serverless 平台 |
| 价格 | 市场价 50% | 市场价(含5%加价) | 市场价 | 按 GPU 时间计费 |
| 速度 | 2x Together AI (声称) | 取决于上游 | 中等 | 取决于配置 |
| 模型种类 | 偏少(中国模型为主) | 290+ 模型 | 100+ 模型 | 自己部署 |
| 核心壁垒 | 自研推理引擎 | 生态 | 训练+推理一体 | 开发体验 |
可借鉴的点
- “改一行代码迁移”的产品设计:OpenAI 格式兼容是最聪明的决定,零迁移成本让用户没有试用门槛
- 硬件赌注式差异化:不做通用方案,而是 All-in 一个被低估的硬件平台(GH200),这种策略如果赌对了回报巨大
- 用成本做增长飞轮:推理成本低 → 更多用户 → GPU 利用率更高 → 成本更低 → 价格更低
给科技博主
创始人故事
两个从小学三年级就认识的好朋友,一起长大一起创业。
Suryaa Rajinikanth:Georgia Tech CS 出身,在 TensorDock 做过首席工程师,建立了「第一个分布式 GPU 市场」服务数千用户和企业。后来去了 Palantir,给美国政府部署 AI 基础设施。他是从 GPU 提供方的角度看到了这个市场的问题。
Veer Shah:领导过 Space Force 项目,在一家支持 NASA 任务的航空创业公司做 ML 工作负载。他是从 GPU 消费方的角度看到了痛点。
两个人一个做供给侧一个做需求侧,最后凑到一起说:我们知道这个行业需要什么,但没人在做。于是创办了 Cumulus Labs,进了 YC W26。
争议点/讨论角度
- 「半价」能持续吗?:这是用户最大的疑问。当规模上去后,成本优势是否还能保持?GPU 供应能否跟上?
- GH200 赌注:整个技术栈绑定了一个不太主流的芯片。如果 NVIDIA 未来把重心放在 Blackwell 上,GH200 的优化可能变成沉没成本
- 两人团队做 Infra:用 2 个人做 GPU 推理基础设施,跟 Together AI (数百人) 和 Modal (融资 $2.5B) 竞争,是勇气还是莽撞?
- 模型偏中国系:Kimi、Qwen、GLM、Wan — 主力模型几乎全是中国团队出品,这在国际市场上是独特定位还是局限?
热度数据
- PH 排名:当日 #7,171 票
- Twitter 讨论:极低,仅有少量推文(一半来自创始人)
- 搜索热度:几乎为零,品牌知名度尚未建立
内容建议
- 适合写的角度:"两个90后用自研 C++ 引擎挑战 GPU 推理巨头"
- 技术深度文:"为什么 Grace Hopper 可能是被低估的推理芯片"
- 蹭热点机会:AI 基础设施成本战争、YC W26 项目盘点
给早期采用者
定价分析
| 模型 | IonRouter 价格 | 对标 | 够用吗? |
|---|---|---|---|
| Qwen 3.5 122B | $0.20/1M tokens | OpenRouter $0.40 | 日常 LLM 够用 |
| Kimi K2.5 | $0.20/1M tokens | OpenRouter $0.40 | 代码/推理够用 |
| Qwen3-VL-30B | $0.040/1M tokens | OpenRouter $0.080 | 视觉任务够用 |
| Wan2.2 | 约 $0.03/片段 | 约 $0.06/片段 | 视频生成够用 |
没有提到免费额度,但按量付费门槛很低。
上手指南
- 上手时间:5 分钟
- 学习曲线:极低(如果你用过 OpenAI API)
- 步骤:
- 去 ionrouter.io 注册
- 拿到 API key
- 把你代码里的 base_url 从
api.openai.com或openrouter.ai换成 IonRouter 的 - 跑起来,按量付费
坑和吐槽
- 产品太新,没有第三方验证:目前所有性能数据都是自己说的,还没有独立评测
- 模型种类有限:主要是 Kimi、Qwen、GLM、Wan 等中国模型,没有 Llama、Mistral、Gemma 等西方主流开源模型(或至少没在主推)
- 团队只有 2 个人:SLA 和 Oncall 能力存疑。半夜服务挂了谁来修?
- “半价”的可持续性:如果是通过 VC 补贴烧出来的低价,规模上去后可能涨价
安全和隐私
- 数据存储:API 调用,数据过他们的服务器
- 隐私政策:未找到详细说明
- 安全审计:无公开信息
- 一位日本用户提到:"因为中间加了一层代理,处理机密信息前务必确认隐私政策。"
替代方案
| 替代品 | 优势 | 劣势 |
|---|---|---|
| OpenRouter | 290+ 模型,生态成熟 | 价格贵一倍 |
| Together AI | 训练+推理一体,模型丰富 | 速度不如 IonAttention |
| LiteLLM (开源) | 免费,自建可控 | 需要自己管 GPU |
| Fireworks AI | 稳定,企业级 | 价格不如 IonRouter |
| 直接用 vLLM 自部署 | 完全可控 | 需要自己买/租 GPU |
给投资人
市场分析
- AI 推理市场:2025 $106B → 2030 $255B (CAGR 19.2%)
- GPU 即服务 (GPUaaS):2026 $7.3B → 2031 $25.9B (CAGR 28.7%)
- Serverless 架构:2026 $22.5B → 2035 $156.9B (CAGR 24.1%)
- 驱动因素:生成式 AI 爆发、LLM 部署从训练转向推理、企业降本需求
竞争格局
| 层级 | 玩家 | 定位 |
|---|---|---|
| 头部 | AWS Inferentia, Google TPU, Azure | 自研芯片 + 云服务捆绑 |
| 腰部 | Together AI ($1.25B), Modal ($2.5B), Fireworks, Anyscale | 通用推理/训练平台 |
| 新进入者 | IonRouter/Cumulus Labs, Lepton AI, Baseten | 差异化推理优化 |
Timing 分析
- 为什么是现在:2026 年 AI 推理需求爆发,但推理成本仍然是应用层最大的成本项。开源模型质量(Qwen、Kimi)已经追上闭源,但推理服务还在吃中间商差价
- 技术成熟度:GH200 芯片已量产但被市场低估,IonAttention 证明了专有优化的空间巨大
- 风险:如果 NVIDIA 下一代芯片 (Blackwell) 不再保留 GH200 的一致性内存架构,Cumulus 的技术壁垒可能归零
团队背景
- Suryaa Rajinikanth:Georgia Tech CS, TensorDock 首席工程师 (分布式 GPU 市场), Palantir (政府 AI 基础设施)
- Veer Shah:Space Force 项目负责人, NASA 航空创业公司 ML 工程师
- 团队规模:2 人
- 特点:两人从小学三年级认识,分别从 GPU 供给侧和需求侧积累经验
融资情况
- 已知:YC W26 Batch (标准 $500K), NVIDIA Inception
- 具体融资金额:未公开
- 估值:未公开
结论
一句话判断:技术上有真东西(IonAttention 性能数据不是吹的),但产品太新、团队太小、模型太少,适合观望 + 小规模试用。
| 用户类型 | 建议 |
|---|---|
| 开发者 | 试试看 — 如果你主用 Qwen/Kimi,改一行代码省一半钱,没理由不试。但别把关键业务全切过去,先跑副线 |
| 产品经理 | 关注 — “改一行代码迁移”的产品设计值得学习,GH200 硬件差异化策略也是个有趣的案例研究 |
| 博主 | 可以写 — “两个小学同学从零造推理引擎挑战巨头”是好故事,但目前热度较低 |
| 早期采用者 | 谨慎尝鲜 — 半价推理确实香,但产品太新,稳定性和模型覆盖率是硬伤 |
| 投资人 | 保持关注 — 技术壁垒有,但 2 人团队在 $1B+ 竞争者面前太单薄。看下一轮融资后能否快速扩充团队和模型 |
资源链接
2026-03-12 | Trend-Tracker v7.3 | 数据来源: ProductHunt、YC、Twitter/X、Cumulus Blog