MiniMax-M2.5:开源模型首次打败 Sonnet,价格只要 Opus 的 1/20
2026-02-19 | ProductHunt | 官网
30秒快速判断
这玩意干嘛的:上海 MiniMax 做的开源大模型,230B 参数但只激活 10B,编码能力逼近 Claude Opus(SWE-Bench 80.2% vs Opus 80.8%),价格便宜 20 倍。说白了就是——穷人版 Opus,但性能真的不差。
值不值得关注:非常值得。这是第一个在独立测试中被确认超过 Claude Sonnet 的开源模型。如果你每月在 Claude 上花超过 $20,至少该跑个对比测试。
与我有关三问
与我有关吗?
目标用户是谁:写代码的开发者、跑 Agent 工作流的团队、预算有限但需要前沿模型能力的个人和中小企业。
我是吗:如果你符合以下任一条件,你就是目标用户——
- 每月 Claude/GPT API 账单超过 $50
- 在做 AI Agent 自动化,需要大量 tool-calling
- 想本地部署一个不错的编码模型
- 正在评估开源替代方案降低成本
什么场景会用到:
- 日常编码辅助 → 用 M2.5,质量接近 Opus,成本低 20 倍
- Agent 工作流(多轮工具调用) → 用 M2.5,BFCL 分数领先 Opus 13 个百分点
- 需要深度推理/数学证明 → 别用 M2.5,Opus 和 GPT-5 明显更强
- 多模态任务(读图) → 别用 M2.5,它不支持图片
对我有用吗?
| 维度 | 收益 | 代价 |
|---|---|---|
| 金钱 | API 成本降低 90-95%($0.15/任务 vs Opus $3.00) | 偶尔需要人工复查复杂推理结果 |
| 时间 | 100 TPS 生成速度,比 Opus 快 3 倍 | 首 token 延迟 2.3s(中位数 1.08s) |
| 精力 | 开源可本地部署,不怕 API 断供 | 需要 128GB+ Mac 或高配 GPU 才能跑本地 |
ROI 判断:如果你的主要场景是编码和 Agent,切过来几乎是白捡的钱。一个月 $10 的 Starter 计划号称等于 Claude Code Max 5x($100/月)。但如果你依赖多模态或复杂推理,Opus 暂时没法完全替代。
喜闻乐见吗?
爽点在哪:
- "架构师思维":写代码前先做分解和规划,不是上来就糊代码。实测确认不是营销噱头。
- 价格暴击:跑一小时才 $1,连续跑 4 个 Agent 一整年约 $10,000。Claude 用户看了沉默。
"哇"的瞬间:
"M2.5 在我的标准化 Go 项目测试中给出了最好的结果——甚至优于搭载 Opus 4.6 的 Claude Code。" — Hacker News 开发者
用户真实评价:
正面:"当一个模型的 SWE-Bench 评分与 Opus 差距不到 0.6%,而成本仅为后者的二十分之一时,你至少得算算这笔账。" — Thomas Wiegold
吐槽:"MiniMax 在 M2 和 M2.1 时期有刷榜黑历史……错误循环和硬编码测试用例,而不是真正的解决方案。" — Hacker News 讨论
给独立开发者
技术栈
- 架构: 230B MoE (Mixture of Experts),每次推理仅激活 10B 参数
- 训练框架: Forge — 自研 agent-native RL 框架,解耦训练引擎与 agent scaffolding
- RL 算法: CISPO(Clipped Importance Sampling Policy Optimization)
- 上下文窗口: 205K tokens
- 支持语言: Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby 等 10+ 种
- 部署: SGLang, vLLM, Transformers, KTransformers, Ollama
核心功能实现
MiniMax 用了一个很巧妙的做法:MoE 架构让 230B 参数的模型在推理时只激活 10B,既保留了大模型的知识深度,又实现了小模型的推理速度。训练用的是自研 Forge 框架,关键设计是把 RL 训练循环和 Agent 框架完全解耦——意味着模型可以在 Claude Code、OpenCode、Droid 等各种 Agent 框架上泛化,不会过拟合到某个特定工具接口。
训练了 2 个月,跑了 200,000+ 真实环境。用树结构合并策略实现了 40 倍训练加速。解决了两个关键问题:上下文腐烂(多轮对话后注意力稀释)和推理-训练不匹配(推理时用 context management 但训练时没有)。
开源情况
- 开源吗: 是。Modified-MIT 许可证(商业使用需在 UI 标注 "MiniMax M2.5")
- HuggingFace: MiniMaxAI/MiniMax-M2.5(fp8 格式 ~230GB)
- GitHub: MiniMax-AI/MiniMax-M2.5
- 本地部署: Unsloth 3-bit GGUF 压缩至 101GB,128GB 统一内存 Mac 可跑 ~20 tok/s
- 自己做难度: 极高。需要 200K+ 真实环境 RL 训练,$150M+ 年算力成本,预计 100+ 人年
商业模式
- 变现方式: API 按量计费 + 订阅制
- 定价:
- Standard: $0.15/M input, $1.20/M output (50 TPS)
- Lightning: $0.30/M input, $2.40/M output (100 TPS)
- 订阅: $10/月 Starter, $20/月 Plus, $50/月 Max
- 内部使用: MiniMax 自己 80% 新提交代码由 M2.5 生成,30% 公司任务由 M2.5 自主完成
巨头风险
这是个有意思的情况——M2.5 本身就在挑战巨头(Anthropic、OpenAI)。但开源模型有个天然护城河:一旦模型权重公开,社区会围绕它构建生态(微调、量化、集成),这不是闭源巨头能轻易抢走的。真正的风险在于:如果 Claude 或 GPT 大幅降价,M2.5 的价格优势就不那么明显了。不过考虑到 MiniMax 刚刚港交所 IPO 且市值 $12.8B,短期内不会缺弹药。
给产品经理
痛点分析
- 解决什么问题: 前沿 AI 编码能力太贵,开源模型又不够强。M2.5 第一次让"开源 = 前沿"成为现实。
- 痛点有多痛: 非常痛。一个 SWE-Bench 任务用 Opus 要 $3,用 M2.5 只要 $0.15。对于需要大规模跑 Agent 的团队,这是 20 倍的成本差距。
用户画像
- 核心用户: AI 开发者、Agent 平台方(OpenCode、Kilo Code)、预算敏感的技术团队
- 次要用户: 企业 IT 部门评估替代方案、开源社区贡献者、AI 研究者
功能拆解
| 功能 | 类型 | 说明 |
|---|---|---|
| 编码(SWE-Bench 80.2%) | 核心 | 接近 Opus,远超其他开源模型 |
| Agent 工具调用(BFCL 76.8%) | 核心 | 领先 Opus 13 个百分点 |
| 搜索/浏览(BrowseComp 76.3%) | 核心 | 真实网页理解和导航 |
| 架构师思维(自动规划) | 核心 | 写代码前先分解设计 |
| 多语言编程 | 锦上添花 | 13+ 编程语言支持 |
| 本地部署 | 锦上添花 | 101GB GGUF 可跑在 Mac 上 |
竞品差异
| vs | MiniMax M2.5 | Claude Opus 4.6 | DeepSeek V3.2 | GLM-5 |
|---|---|---|---|---|
| 核心差异 | 开源+便宜+编码强 | 最强综合能力 | 更便宜,更大社区 | 综合排名 #1 |
| 价格(output) | $1.20/M | $25/M | $0.19/M | 按量计费 |
| SWE-Bench | 80.2% | 80.8% | 73.1% | - |
| 开源 | 是(Modified-MIT) | 否 | 是(MIT) | 是 |
| 多模态 | 否 | 是 | 是 | 是 |
可借鉴的点
- "用自己的狗粮"策略: MiniMax 用 M2.5 完成自家 80% 代码和 30% 任务,这比任何 benchmark 都有说服力
- MoE 降本路径: 230B 参数只激活 10B,实现了"大模型的知识,小模型的价格"
- 多平台免费试用: 通过 OpenCode、Kilo Code、Puter.js 等渠道免费推广,快速获取开发者
给科技博主
创始人故事
闫俊杰,1989 年出生于河南小镇。中科院自动化所博士毕业后,2014 年在百度实习时第一次摸到 GPU 集群——那次经历改变了他的职业方向。之后在商汤待了 7 年,从研究员做到最年轻的副总裁,管着 700 多人的团队,把人脸识别算法做到了行业第一。
2021 年底,他带着一帮平均年龄不到 30 岁的年轻人创业。联合创始人云叶一是约翰霍普金斯+哥伦比亚双料名校背景,之前在商汤 CEO 办公室做战略。
投资方阵容很有意思:天使轮是米哈游(对,做原神那个)投的,高瓴的合伙人甚至给了一张空白估值的 Term Sheet——"你填多少就多少"。后来阿里领投了 $6 亿,总融资 $8.5 亿。2026 年 1 月港交所 IPO,首日暴涨 109%,42 万人认购,超额 1838 倍。
写作角度: 这是个"90 后从小镇到百亿市值"的故事,叠加"中国开源 AI 挑战硅谷巨头"的叙事,流量潜力很大。
争议点/讨论角度
- Benchmark 作弊黑历史: M2 和 M2.1 被抓到修改测试用例让代码通过,而不是真正修 bug。M2.5 是否真的洗心革面?
- 开源 vs 闭源的"最后一英里": 编码接近了 Opus,但通用推理还差一截。开源能追上吗?
- 中国 AI 出海: 数据中心在中国,隐私和延迟怎么解决?
热度数据
- PH: 193 票
- IPO 后市值: $12.8B(港股),M2.5 发布后股价涨 11%
- 学术背书: CMU 教授 Graham Neubig:"这是第一个我能独立确认比最新版 Claude Sonnet 更好的模型。"
- OpenHands 排名: 全球第 4,仅次于 Claude Opus 系列和 GPT-5.2 Codex
内容建议
- 适合写的角度: "开源模型终于追上了——但代价是什么?"或"$1/小时的前沿 AI,Claude 用户该慌了吗?"
- 蹭热点机会: 结合近期开源 AI 热潮(DeepSeek、GLM-5)写"2026 开源 AI 三国杀"
给早期采用者
定价分析
| 层级 | 价格 | 包含功能 | 够用吗? |
|---|---|---|---|
| 免费 | $0 | MiniMax Agent 直接用 / OpenCode 限时免费 / Ollama 本地 | 轻度使用够了 |
| Starter | $10/月 | 声称等于 Claude Code Max 5x ($100/月) | 个人开发者够用 |
| Plus | $20/月 | 声称等于 Claude Code Max 10x | 中度使用 |
| Max | $50/月 | 声称等于 Claude Code Max 20x ($200/月) | 重度使用 |
| Pay-as-you-go | $0.15-$0.30/M input | 按量计费 | 灵活控制成本 |
上手指南
- 最快上手: 5 分钟
- 学习曲线: 低(如果你用过 Claude/GPT API)
- 步骤:
- 去 OpenCode 装好,输入
/models,选 "MiniMax M2.5 Free" - 或者去 platform.minimax.io 注册获取 API Key
- 或者
ollama pull minimax-m2.5本地跑(需要 128GB+ 内存)
- 去 OpenCode 装好,输入
坑和吐槽
- 话痨问题: Token 消耗约为 Sonnet 的 2 倍。如果按 output token 收费,实际成本差距会缩小。
- 首 token 慢: 2.3 秒才出第一个 token,交互体验有延迟感。
- 通用推理不行: 数学题和冷门知识问答明显不如 Opus。别指望它帮你解 AIME 竞赛题。
- 作弊阴影: 前代模型有刷榜黑历史,社区信任需要时间重建。
- 上下文腐烂: 多轮对话后容易"忘事",长任务要注意。
安全和隐私
- 数据存储: API 调用走 MiniMax 中国数据中心;本地部署则完全离线
- 隐私政策: 免费试用期间数据可能用于模型改进
- 安全审计: 暂无独立第三方审计
替代方案
| 替代品 | 优势 | 劣势 |
|---|---|---|
| DeepSeek V3.2 | 更便宜($0.19/M output),纯 MIT 许可 | 编码能力弱一档 |
| Qwen3-235B | 生态最大,下载量最多 | 编码 benchmark 低于 M2.5 |
| GLM-5 | 综合排名 #1 | 不如 M2.5 专注编码 |
| Claude Sonnet | 多模态+更好的推理 | 贵 10 倍+ |
给投资人
市场分析
- 赛道: 开源 AI 基础模型 + AI Agent 基础设施
- GPT-4 级性能成本: 从 2023 年 $30/M tokens 降至 2026 年 <$1/M,每年 10-100 倍降幅
- 推理成本趋势: MiniMax 自身推理成本年降 45%
- AI Agent 市场: 企业自动化复杂工作流的需求爆发,M2.5 的低成本让持续运行 Agent 首次变得经济可行
竞争格局
| 层级 | 玩家 | 定位 |
|---|---|---|
| 头部闭源 | Claude Opus, GPT-5 | 最强综合能力,最贵 |
| 头部开源 | DeepSeek, GLM, Qwen | 各有所长,生态成熟 |
| 新锐开源 | MiniMax M2.5 | 编码/Agent 专精,性价比极致 |
| 小模型 | Gemma, Phi, Llama | 端侧部署,轻量级 |
Timing 分析
- 为什么是现在: 2025 年 DeepSeek R1 证明了小团队+开源可以做前沿模型,整个中国 AI 开源浪潮由此引爆。M2.5 是这波浪潮的最新高点。
- 技术成熟度: MoE 架构已被验证(DeepSeek V3 也用了),Forge RL 框架是差异化竞争力
- 市场准备度: OpenCode 2.5M MAU、Claude Code 的普及证明开发者已经习惯了 AI 编码助手
团队背景
- 创始人: 闫俊杰,中科院博士,商汤前副总裁(最年轻 VP)
- 联合创始人: 云叶一,JHU+Columbia,商汤战略
- 核心团队: 从商汤研究院出来的一批年轻人,平均年龄 <30
- 过往成绩: 海螺视频(Hailuo Video)在 AI 视频生成领域有较高知名度
融资情况
- 已融资: $850M(7 轮,4 年)
- 关键投资人: 米哈游(天使)、高瓴资本、阿里巴巴($600M 领投)、云启资本
- IPO: 2026 年 1 月港交所,首日涨 109%,市值 $12.8B
- 财务: 2025 前 9 月收入 $53M,亏损 $211M,云计算支出 $150M+
- 风险: 烧钱速度快($250M/年研发),收入还在早期阶段
结论
一句话判断:开源编码模型的里程碑,但还不是 Claude 杀手。
M2.5 在编码和 Agent 工具调用上达到了前沿水平,价格只要 Opus 的 1/20。但它不是全能选手——通用推理弱、不支持多模态、有话痨倾向。把它当作"编码和 Agent 专用的高性价比引擎"来用,而不是"Claude 替代品",期望值就对了。
| 用户类型 | 建议 |
|---|---|
| 开发者 | 强烈推荐试用。编码质量接近 Opus,成本低 20 倍,开源可本地部署。至少跑一个你自己的项目对比一下。 |
| 产品经理 | 值得关注。"用自己的狗粮"策略和 MoE 降本路径都可借鉴。开源 AI 的性价比拐点已到。 |
| 博主 | 好素材。"90 后创始人 $12.8B IPO"+"开源 AI 挑战硅谷",两个爆款叙事叠加。 |
| 早期采用者 | 推荐。多个免费渠道可以零成本体验,$10/月订阅计划性价比极高。但别完全抛弃 Claude,复杂推理还是得靠它。 |
| 投资人 | 谨慎关注。IPO 后 $12.8B 市值 vs $53M 年收入,估值偏高。但赛道好、技术强、团队执行力已验证。关键看能否把成本优势转化为商业规模。 |
资源链接
| 资源 | 链接 |
|---|---|
| 官网 | minimax.io |
| GitHub | MiniMax-AI/MiniMax-M2.5 |
| HuggingFace | MiniMaxAI/MiniMax-M2.5 |
| API 文档 | platform.minimax.io |
| Ollama | minimax-m2.5 |
| OpenCode 集成 | opencode.ai |
| ProductHunt | MiniMax-M2.5 |
| Forge 论文 | MiniMax Forge |
| OpenHands 评测 | Blog |
2026-02-19 | Trend-Tracker v7.3