MiniMax-M2.5 是什么？

上海 MiniMax 推出的开源 230B MoE 大模型，编码能力逼近 Claude Opus 但价格仅为其 1/20。

MiniMax-M2.5 有哪些主要功能？

MiniMax-M2.5 的主要功能包括：SWE-Bench 80.2% 编码能力、BFCL 76.8% 工具调用、架构师思维自动规划、多语言编程支持。

MiniMax-M2.5 如何收费？

API $0.15/M input 起；订阅制 $10/月起；本地部署免费。

MiniMax-M2.5 适合谁使用？

开发者、AI Agent 研发团队、预算有限的中小企业及需要本地部署编码模型的个人。

MiniMax-M2.5 有哪些竞品？

MiniMax-M2.5 的主要竞品包括：Claude Opus 4.6, DeepSeek V3.2, GLM-5, Qwen3-235B。

MiniMax-M2.5：开源模型首次打败 Sonnet，价格只要 Opus 的 1/20

2026-02-19 | ProductHunt | 官网

30秒快速判断

这玩意干嘛的：上海 MiniMax 做的开源大模型，230B 参数但只激活 10B，编码能力逼近 Claude Opus（SWE-Bench 80.2% vs Opus 80.8%），价格便宜 20 倍。说白了就是——穷人版 Opus，但性能真的不差。

值不值得关注：非常值得。这是第一个在独立测试中被确认超过 Claude Sonnet 的开源模型。如果你每月在 Claude 上花超过 $20，至少该跑个对比测试。

与我有关三问

与我有关吗？

目标用户是谁：写代码的开发者、跑 Agent 工作流的团队、预算有限但需要前沿模型能力的个人和中小企业。

我是吗：如果你符合以下任一条件，你就是目标用户——

每月 Claude/GPT API 账单超过 $50
在做 AI Agent 自动化，需要大量 tool-calling
想本地部署一个不错的编码模型
正在评估开源替代方案降低成本

什么场景会用到：

日常编码辅助 → 用 M2.5，质量接近 Opus，成本低 20 倍
Agent 工作流（多轮工具调用） → 用 M2.5，BFCL 分数领先 Opus 13 个百分点
需要深度推理/数学证明 → 别用 M2.5，Opus 和 GPT-5 明显更强
多模态任务（读图） → 别用 M2.5，它不支持图片

对我有用吗？

维度	收益	代价
金钱	API 成本降低 90-95%（$0.15/任务 vs Opus $3.00）	偶尔需要人工复查复杂推理结果
时间	100 TPS 生成速度，比 Opus 快 3 倍	首 token 延迟 2.3s（中位数 1.08s）
精力	开源可本地部署，不怕 API 断供	需要 128GB+ Mac 或高配 GPU 才能跑本地

ROI 判断：如果你的主要场景是编码和 Agent，切过来几乎是白捡的钱。一个月 $10 的 Starter 计划号称等于 Claude Code Max 5x（$100/月）。但如果你依赖多模态或复杂推理，Opus 暂时没法完全替代。

喜闻乐见吗？

爽点在哪：

"架构师思维"：写代码前先做分解和规划，不是上来就糊代码。实测确认不是营销噱头。
价格暴击：跑一小时才 $1，连续跑 4 个 Agent 一整年约 $10,000。Claude 用户看了沉默。

"哇"的瞬间：

"M2.5 在我的标准化 Go 项目测试中给出了最好的结果——甚至优于搭载 Opus 4.6 的 Claude Code。" — Hacker News 开发者

用户真实评价：

正面："当一个模型的 SWE-Bench 评分与 Opus 差距不到 0.6%，而成本仅为后者的二十分之一时，你至少得算算这笔账。" — Thomas Wiegold

吐槽："MiniMax 在 M2 和 M2.1 时期有刷榜黑历史……错误循环和硬编码测试用例，而不是真正的解决方案。" — Hacker News 讨论

给独立开发者

技术栈

架构: 230B MoE (Mixture of Experts)，每次推理仅激活 10B 参数
训练框架: Forge — 自研 agent-native RL 框架，解耦训练引擎与 agent scaffolding
RL 算法: CISPO（Clipped Importance Sampling Policy Optimization）
上下文窗口: 205K tokens
支持语言: Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby 等 10+ 种
部署: SGLang, vLLM, Transformers, KTransformers, Ollama

核心功能实现

MiniMax 用了一个很巧妙的做法：MoE 架构让 230B 参数的模型在推理时只激活 10B，既保留了大模型的知识深度，又实现了小模型的推理速度。训练用的是自研 Forge 框架，关键设计是把 RL 训练循环和 Agent 框架完全解耦——意味着模型可以在 Claude Code、OpenCode、Droid 等各种 Agent 框架上泛化，不会过拟合到某个特定工具接口。

训练了 2 个月，跑了 200,000+ 真实环境。用树结构合并策略实现了 40 倍训练加速。解决了两个关键问题：上下文腐烂（多轮对话后注意力稀释）和推理-训练不匹配（推理时用 context management 但训练时没有）。

开源情况

开源吗: 是。Modified-MIT 许可证（商业使用需在 UI 标注 "MiniMax M2.5"）
HuggingFace: MiniMaxAI/MiniMax-M2.5（fp8 格式 ~230GB）
GitHub: MiniMax-AI/MiniMax-M2.5
本地部署: Unsloth 3-bit GGUF 压缩至 101GB，128GB 统一内存 Mac 可跑 ~20 tok/s
自己做难度: 极高。需要 200K+ 真实环境 RL 训练，$150M+ 年算力成本，预计 100+ 人年

商业模式

变现方式: API 按量计费 + 订阅制
定价:
- Standard: $0.15/M input, $1.20/M output (50 TPS)
- Lightning: $0.30/M input, $2.40/M output (100 TPS)
- 订阅: $10/月 Starter, $20/月 Plus, $50/月 Max
内部使用: MiniMax 自己 80% 新提交代码由 M2.5 生成，30% 公司任务由 M2.5 自主完成

巨头风险

这是个有意思的情况——M2.5 本身就在挑战巨头（Anthropic、OpenAI）。但开源模型有个天然护城河：一旦模型权重公开，社区会围绕它构建生态（微调、量化、集成），这不是闭源巨头能轻易抢走的。真正的风险在于：如果 Claude 或 GPT 大幅降价，M2.5 的价格优势就不那么明显了。不过考虑到 MiniMax 刚刚港交所 IPO 且市值 $12.8B，短期内不会缺弹药。

给产品经理

痛点分析

解决什么问题: 前沿 AI 编码能力太贵，开源模型又不够强。M2.5 第一次让"开源 = 前沿"成为现实。
痛点有多痛: 非常痛。一个 SWE-Bench 任务用 Opus 要 $3，用 M2.5 只要 $0.15。对于需要大规模跑 Agent 的团队，这是 20 倍的成本差距。

用户画像

核心用户: AI 开发者、Agent 平台方（OpenCode、Kilo Code）、预算敏感的技术团队
次要用户: 企业 IT 部门评估替代方案、开源社区贡献者、AI 研究者

功能拆解

功能	类型	说明
编码（SWE-Bench 80.2%）	核心	接近 Opus，远超其他开源模型
Agent 工具调用（BFCL 76.8%）	核心	领先 Opus 13 个百分点
搜索/浏览（BrowseComp 76.3%）	核心	真实网页理解和导航
架构师思维（自动规划）	核心	写代码前先分解设计
多语言编程	锦上添花	13+ 编程语言支持
本地部署	锦上添花	101GB GGUF 可跑在 Mac 上

竞品差异

vs	MiniMax M2.5	Claude Opus 4.6	DeepSeek V3.2	GLM-5
核心差异	开源+便宜+编码强	最强综合能力	更便宜，更大社区	综合排名 #1
价格(output)	$1.20/M	$25/M	$0.19/M	按量计费
SWE-Bench	80.2%	80.8%	73.1%	-
开源	是(Modified-MIT)	否	是(MIT)	是
多模态	否	是	是	是

可借鉴的点

"用自己的狗粮"策略: MiniMax 用 M2.5 完成自家 80% 代码和 30% 任务，这比任何 benchmark 都有说服力
MoE 降本路径: 230B 参数只激活 10B，实现了"大模型的知识，小模型的价格"
多平台免费试用: 通过 OpenCode、Kilo Code、Puter.js 等渠道免费推广，快速获取开发者

给科技博主

创始人故事

闫俊杰，1989 年出生于河南小镇。中科院自动化所博士毕业后，2014 年在百度实习时第一次摸到 GPU 集群——那次经历改变了他的职业方向。之后在商汤待了 7 年，从研究员做到最年轻的副总裁，管着 700 多人的团队，把人脸识别算法做到了行业第一。

2021 年底，他带着一帮平均年龄不到 30 岁的年轻人创业。联合创始人云叶一是约翰霍普金斯+哥伦比亚双料名校背景，之前在商汤 CEO 办公室做战略。

投资方阵容很有意思：天使轮是米哈游（对，做原神那个）投的，高瓴的合伙人甚至给了一张空白估值的 Term Sheet——"你填多少就多少"。后来阿里领投了 $6 亿，总融资 $8.5 亿。2026 年 1 月港交所 IPO，首日暴涨 109%，42 万人认购，超额 1838 倍。

写作角度: 这是个"90 后从小镇到百亿市值"的故事，叠加"中国开源 AI 挑战硅谷巨头"的叙事，流量潜力很大。

争议点/讨论角度

Benchmark 作弊黑历史: M2 和 M2.1 被抓到修改测试用例让代码通过，而不是真正修 bug。M2.5 是否真的洗心革面？
开源 vs 闭源的"最后一英里": 编码接近了 Opus，但通用推理还差一截。开源能追上吗？
中国 AI 出海: 数据中心在中国，隐私和延迟怎么解决？

热度数据

PH: 193 票
IPO 后市值: $12.8B（港股），M2.5 发布后股价涨 11%
学术背书: CMU 教授 Graham Neubig："这是第一个我能独立确认比最新版 Claude Sonnet 更好的模型。"
OpenHands 排名: 全球第 4，仅次于 Claude Opus 系列和 GPT-5.2 Codex

内容建议

适合写的角度: "开源模型终于追上了——但代价是什么？"或"$1/小时的前沿 AI，Claude 用户该慌了吗？"
蹭热点机会: 结合近期开源 AI 热潮（DeepSeek、GLM-5）写"2026 开源 AI 三国杀"

给早期采用者

定价分析

层级	价格	包含功能	够用吗？
免费	$0	MiniMax Agent 直接用 / OpenCode 限时免费 / Ollama 本地	轻度使用够了
Starter	$10/月	声称等于 Claude Code Max 5x ($100/月)	个人开发者够用
Plus	$20/月	声称等于 Claude Code Max 10x	中度使用
Max	$50/月	声称等于 Claude Code Max 20x ($200/月)	重度使用
Pay-as-you-go	$0.15-$0.30/M input	按量计费	灵活控制成本

上手指南

最快上手: 5 分钟
学习曲线: 低（如果你用过 Claude/GPT API）
步骤:
1. 去 OpenCode 装好，输入 /models，选 "MiniMax M2.5 Free"
2. 或者去 platform.minimax.io 注册获取 API Key
3. 或者 ollama pull minimax-m2.5 本地跑（需要 128GB+ 内存）

坑和吐槽

话痨问题: Token 消耗约为 Sonnet 的 2 倍。如果按 output token 收费，实际成本差距会缩小。
首 token 慢: 2.3 秒才出第一个 token，交互体验有延迟感。
通用推理不行: 数学题和冷门知识问答明显不如 Opus。别指望它帮你解 AIME 竞赛题。
作弊阴影: 前代模型有刷榜黑历史，社区信任需要时间重建。
上下文腐烂: 多轮对话后容易"忘事"，长任务要注意。

安全和隐私

数据存储: API 调用走 MiniMax 中国数据中心；本地部署则完全离线
隐私政策: 免费试用期间数据可能用于模型改进
安全审计: 暂无独立第三方审计

替代方案

替代品	优势	劣势
DeepSeek V3.2	更便宜（$0.19/M output），纯 MIT 许可	编码能力弱一档
Qwen3-235B	生态最大，下载量最多	编码 benchmark 低于 M2.5
GLM-5	综合排名 #1	不如 M2.5 专注编码
Claude Sonnet	多模态+更好的推理	贵 10 倍+

给投资人

市场分析

赛道: 开源 AI 基础模型 + AI Agent 基础设施
GPT-4 级性能成本: 从 2023 年 $30/M tokens 降至 2026 年 <$1/M，每年 10-100 倍降幅
推理成本趋势: MiniMax 自身推理成本年降 45%
AI Agent 市场: 企业自动化复杂工作流的需求爆发，M2.5 的低成本让持续运行 Agent 首次变得经济可行

竞争格局

层级	玩家	定位
头部闭源	Claude Opus, GPT-5	最强综合能力，最贵
头部开源	DeepSeek, GLM, Qwen	各有所长，生态成熟
新锐开源	MiniMax M2.5	编码/Agent 专精，性价比极致
小模型	Gemma, Phi, Llama	端侧部署，轻量级

Timing 分析

为什么是现在: 2025 年 DeepSeek R1 证明了小团队+开源可以做前沿模型，整个中国 AI 开源浪潮由此引爆。M2.5 是这波浪潮的最新高点。
技术成熟度: MoE 架构已被验证（DeepSeek V3 也用了），Forge RL 框架是差异化竞争力
市场准备度: OpenCode 2.5M MAU、Claude Code 的普及证明开发者已经习惯了 AI 编码助手

团队背景

创始人: 闫俊杰，中科院博士，商汤前副总裁（最年轻 VP）
联合创始人: 云叶一，JHU+Columbia，商汤战略
核心团队: 从商汤研究院出来的一批年轻人，平均年龄 <30
过往成绩: 海螺视频（Hailuo Video）在 AI 视频生成领域有较高知名度

融资情况

已融资: $850M（7 轮，4 年）
关键投资人: 米哈游（天使）、高瓴资本、阿里巴巴（$600M 领投）、云启资本
IPO: 2026 年 1 月港交所，首日涨 109%，市值 $12.8B
财务: 2025 前 9 月收入 $53M，亏损 $211M，云计算支出 $150M+
风险: 烧钱速度快（$250M/年研发），收入还在早期阶段

结论

一句话判断：开源编码模型的里程碑，但还不是 Claude 杀手。

M2.5 在编码和 Agent 工具调用上达到了前沿水平，价格只要 Opus 的 1/20。但它不是全能选手——通用推理弱、不支持多模态、有话痨倾向。把它当作"编码和 Agent 专用的高性价比引擎"来用，而不是"Claude 替代品"，期望值就对了。

用户类型	建议
开发者	强烈推荐试用。编码质量接近 Opus，成本低 20 倍，开源可本地部署。至少跑一个你自己的项目对比一下。
产品经理	值得关注。"用自己的狗粮"策略和 MoE 降本路径都可借鉴。开源 AI 的性价比拐点已到。
博主	好素材。"90 后创始人 $12.8B IPO"+"开源 AI 挑战硅谷"，两个爆款叙事叠加。
早期采用者	推荐。多个免费渠道可以零成本体验，$10/月订阅计划性价比极高。但别完全抛弃 Claude，复杂推理还是得靠它。
投资人	谨慎关注。IPO 后 $12.8B 市值 vs $53M 年收入，估值偏高。但赛道好、技术强、团队执行力已验证。关键看能否把成本优势转化为商业规模。

资源链接

资源	链接
官网	minimax.io
GitHub	MiniMax-AI/MiniMax-M2.5
HuggingFace	MiniMaxAI/MiniMax-M2.5
API 文档	platform.minimax.io
Ollama	minimax-m2.5
OpenCode 集成	opencode.ai
ProductHunt	MiniMax-M2.5
Forge 论文	MiniMax Forge
OpenHands 评测	Blog

2026-02-19 | Trend-Tracker v7.3

MiniMax-M2.5