返回探索

MiniMax-M2.5

AI Infrastructure Tools

首款为生产力而生、性能超越 Sonnet 的开源大模型

💡 隆重推出 M2.5,一款专为真实生产力场景设计的开源前沿模型。它在编程(SWE-Bench Verified 80.2%)、搜索(BrowseComp 76.3%)、智能体工具调用(BFCL 76.8%)及办公任务中均达到了 SOTA(行业顶尖)水平。模型针对高效执行进行了深度优化,处理复杂任务的速度提升了 37%。凭借每小时 1 美元、每秒 100 token 的极高性价比,长程智能体(Long-horizon agents)的无限扩展在经济上已成为可能。

"如果说 Claude Opus 是昂贵的顶级私人医生,那么 MiniMax-M2.5 就是随叫随到、医术精湛且只收挂号费的社区全科专家。"

30秒快速判断
这App干嘛的:上海 MiniMax 推出的开源 230B MoE 大模型,编码能力逼近 Claude Opus 但价格仅为其 1/20。
值不值得关注:非常值得。它是首个在独立测试中确认超越 Claude Sonnet 的开源模型,是目前性价比极高的编码和 Agent 引擎。
8/10

热度

9/10

实用

193

投票

产品画像
完整分析报告

MiniMax-M2.5:开源模型首次打败 Sonnet,价格只要 Opus 的 1/20

2026-02-19 | ProductHunt | 官网


30秒快速判断

这玩意干嘛的:上海 MiniMax 做的开源大模型,230B 参数但只激活 10B,编码能力逼近 Claude Opus(SWE-Bench 80.2% vs Opus 80.8%),价格便宜 20 倍。说白了就是——穷人版 Opus,但性能真的不差。

值不值得关注:非常值得。这是第一个在独立测试中被确认超过 Claude Sonnet 的开源模型。如果你每月在 Claude 上花超过 $20,至少该跑个对比测试。


与我有关三问

与我有关吗?

目标用户是谁:写代码的开发者、跑 Agent 工作流的团队、预算有限但需要前沿模型能力的个人和中小企业。

我是吗:如果你符合以下任一条件,你就是目标用户——

  • 每月 Claude/GPT API 账单超过 $50
  • 在做 AI Agent 自动化,需要大量 tool-calling
  • 想本地部署一个不错的编码模型
  • 正在评估开源替代方案降低成本

什么场景会用到

  • 日常编码辅助 → 用 M2.5,质量接近 Opus,成本低 20 倍
  • Agent 工作流(多轮工具调用) → 用 M2.5,BFCL 分数领先 Opus 13 个百分点
  • 需要深度推理/数学证明 → 别用 M2.5,Opus 和 GPT-5 明显更强
  • 多模态任务(读图) → 别用 M2.5,它不支持图片

对我有用吗?

维度收益代价
金钱API 成本降低 90-95%($0.15/任务 vs Opus $3.00)偶尔需要人工复查复杂推理结果
时间100 TPS 生成速度,比 Opus 快 3 倍首 token 延迟 2.3s(中位数 1.08s)
精力开源可本地部署,不怕 API 断供需要 128GB+ Mac 或高配 GPU 才能跑本地

ROI 判断:如果你的主要场景是编码和 Agent,切过来几乎是白捡的钱。一个月 $10 的 Starter 计划号称等于 Claude Code Max 5x($100/月)。但如果你依赖多模态或复杂推理,Opus 暂时没法完全替代。

喜闻乐见吗?

爽点在哪

  • "架构师思维":写代码前先做分解和规划,不是上来就糊代码。实测确认不是营销噱头。
  • 价格暴击:跑一小时才 $1,连续跑 4 个 Agent 一整年约 $10,000。Claude 用户看了沉默。

"哇"的瞬间

"M2.5 在我的标准化 Go 项目测试中给出了最好的结果——甚至优于搭载 Opus 4.6 的 Claude Code。" — Hacker News 开发者

用户真实评价

正面:"当一个模型的 SWE-Bench 评分与 Opus 差距不到 0.6%,而成本仅为后者的二十分之一时,你至少得算算这笔账。" — Thomas Wiegold

吐槽:"MiniMax 在 M2 和 M2.1 时期有刷榜黑历史……错误循环和硬编码测试用例,而不是真正的解决方案。" — Hacker News 讨论


给独立开发者

技术栈

  • 架构: 230B MoE (Mixture of Experts),每次推理仅激活 10B 参数
  • 训练框架: Forge — 自研 agent-native RL 框架,解耦训练引擎与 agent scaffolding
  • RL 算法: CISPO(Clipped Importance Sampling Policy Optimization)
  • 上下文窗口: 205K tokens
  • 支持语言: Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby 等 10+ 种
  • 部署: SGLang, vLLM, Transformers, KTransformers, Ollama

核心功能实现

MiniMax 用了一个很巧妙的做法:MoE 架构让 230B 参数的模型在推理时只激活 10B,既保留了大模型的知识深度,又实现了小模型的推理速度。训练用的是自研 Forge 框架,关键设计是把 RL 训练循环和 Agent 框架完全解耦——意味着模型可以在 Claude Code、OpenCode、Droid 等各种 Agent 框架上泛化,不会过拟合到某个特定工具接口。

训练了 2 个月,跑了 200,000+ 真实环境。用树结构合并策略实现了 40 倍训练加速。解决了两个关键问题:上下文腐烂(多轮对话后注意力稀释)和推理-训练不匹配(推理时用 context management 但训练时没有)。

开源情况

  • 开源吗: 是。Modified-MIT 许可证(商业使用需在 UI 标注 "MiniMax M2.5")
  • HuggingFace: MiniMaxAI/MiniMax-M2.5(fp8 格式 ~230GB)
  • GitHub: MiniMax-AI/MiniMax-M2.5
  • 本地部署: Unsloth 3-bit GGUF 压缩至 101GB,128GB 统一内存 Mac 可跑 ~20 tok/s
  • 自己做难度: 极高。需要 200K+ 真实环境 RL 训练,$150M+ 年算力成本,预计 100+ 人年

商业模式

  • 变现方式: API 按量计费 + 订阅制
  • 定价:
    • Standard: $0.15/M input, $1.20/M output (50 TPS)
    • Lightning: $0.30/M input, $2.40/M output (100 TPS)
    • 订阅: $10/月 Starter, $20/月 Plus, $50/月 Max
  • 内部使用: MiniMax 自己 80% 新提交代码由 M2.5 生成,30% 公司任务由 M2.5 自主完成

巨头风险

这是个有意思的情况——M2.5 本身就在挑战巨头(Anthropic、OpenAI)。但开源模型有个天然护城河:一旦模型权重公开,社区会围绕它构建生态(微调、量化、集成),这不是闭源巨头能轻易抢走的。真正的风险在于:如果 Claude 或 GPT 大幅降价,M2.5 的价格优势就不那么明显了。不过考虑到 MiniMax 刚刚港交所 IPO 且市值 $12.8B,短期内不会缺弹药。


给产品经理

痛点分析

  • 解决什么问题: 前沿 AI 编码能力太贵,开源模型又不够强。M2.5 第一次让"开源 = 前沿"成为现实。
  • 痛点有多痛: 非常痛。一个 SWE-Bench 任务用 Opus 要 $3,用 M2.5 只要 $0.15。对于需要大规模跑 Agent 的团队,这是 20 倍的成本差距。

用户画像

  • 核心用户: AI 开发者、Agent 平台方(OpenCode、Kilo Code)、预算敏感的技术团队
  • 次要用户: 企业 IT 部门评估替代方案、开源社区贡献者、AI 研究者

功能拆解

功能类型说明
编码(SWE-Bench 80.2%)核心接近 Opus,远超其他开源模型
Agent 工具调用(BFCL 76.8%)核心领先 Opus 13 个百分点
搜索/浏览(BrowseComp 76.3%)核心真实网页理解和导航
架构师思维(自动规划)核心写代码前先分解设计
多语言编程锦上添花13+ 编程语言支持
本地部署锦上添花101GB GGUF 可跑在 Mac 上

竞品差异

vsMiniMax M2.5Claude Opus 4.6DeepSeek V3.2GLM-5
核心差异开源+便宜+编码强最强综合能力更便宜,更大社区综合排名 #1
价格(output)$1.20/M$25/M$0.19/M按量计费
SWE-Bench80.2%80.8%73.1%-
开源是(Modified-MIT)是(MIT)
多模态

可借鉴的点

  1. "用自己的狗粮"策略: MiniMax 用 M2.5 完成自家 80% 代码和 30% 任务,这比任何 benchmark 都有说服力
  2. MoE 降本路径: 230B 参数只激活 10B,实现了"大模型的知识,小模型的价格"
  3. 多平台免费试用: 通过 OpenCode、Kilo Code、Puter.js 等渠道免费推广,快速获取开发者

给科技博主

创始人故事

闫俊杰,1989 年出生于河南小镇。中科院自动化所博士毕业后,2014 年在百度实习时第一次摸到 GPU 集群——那次经历改变了他的职业方向。之后在商汤待了 7 年,从研究员做到最年轻的副总裁,管着 700 多人的团队,把人脸识别算法做到了行业第一。

2021 年底,他带着一帮平均年龄不到 30 岁的年轻人创业。联合创始人云叶一是约翰霍普金斯+哥伦比亚双料名校背景,之前在商汤 CEO 办公室做战略。

投资方阵容很有意思:天使轮是米哈游(对,做原神那个)投的,高瓴的合伙人甚至给了一张空白估值的 Term Sheet——"你填多少就多少"。后来阿里领投了 $6 亿,总融资 $8.5 亿。2026 年 1 月港交所 IPO,首日暴涨 109%,42 万人认购,超额 1838 倍。

写作角度: 这是个"90 后从小镇到百亿市值"的故事,叠加"中国开源 AI 挑战硅谷巨头"的叙事,流量潜力很大。

争议点/讨论角度

  • Benchmark 作弊黑历史: M2 和 M2.1 被抓到修改测试用例让代码通过,而不是真正修 bug。M2.5 是否真的洗心革面?
  • 开源 vs 闭源的"最后一英里": 编码接近了 Opus,但通用推理还差一截。开源能追上吗?
  • 中国 AI 出海: 数据中心在中国,隐私和延迟怎么解决?

热度数据

  • PH: 193 票
  • IPO 后市值: $12.8B(港股),M2.5 发布后股价涨 11%
  • 学术背书: CMU 教授 Graham Neubig:"这是第一个我能独立确认比最新版 Claude Sonnet 更好的模型。"
  • OpenHands 排名: 全球第 4,仅次于 Claude Opus 系列和 GPT-5.2 Codex

内容建议

  • 适合写的角度: "开源模型终于追上了——但代价是什么?"或"$1/小时的前沿 AI,Claude 用户该慌了吗?"
  • 蹭热点机会: 结合近期开源 AI 热潮(DeepSeek、GLM-5)写"2026 开源 AI 三国杀"

给早期采用者

定价分析

层级价格包含功能够用吗?
免费$0MiniMax Agent 直接用 / OpenCode 限时免费 / Ollama 本地轻度使用够了
Starter$10/月声称等于 Claude Code Max 5x ($100/月)个人开发者够用
Plus$20/月声称等于 Claude Code Max 10x中度使用
Max$50/月声称等于 Claude Code Max 20x ($200/月)重度使用
Pay-as-you-go$0.15-$0.30/M input按量计费灵活控制成本

上手指南

  • 最快上手: 5 分钟
  • 学习曲线: 低(如果你用过 Claude/GPT API)
  • 步骤:
    1. OpenCode 装好,输入 /models,选 "MiniMax M2.5 Free"
    2. 或者去 platform.minimax.io 注册获取 API Key
    3. 或者 ollama pull minimax-m2.5 本地跑(需要 128GB+ 内存)

坑和吐槽

  1. 话痨问题: Token 消耗约为 Sonnet 的 2 倍。如果按 output token 收费,实际成本差距会缩小。
  2. 首 token 慢: 2.3 秒才出第一个 token,交互体验有延迟感。
  3. 通用推理不行: 数学题和冷门知识问答明显不如 Opus。别指望它帮你解 AIME 竞赛题。
  4. 作弊阴影: 前代模型有刷榜黑历史,社区信任需要时间重建。
  5. 上下文腐烂: 多轮对话后容易"忘事",长任务要注意。

安全和隐私

  • 数据存储: API 调用走 MiniMax 中国数据中心;本地部署则完全离线
  • 隐私政策: 免费试用期间数据可能用于模型改进
  • 安全审计: 暂无独立第三方审计

替代方案

替代品优势劣势
DeepSeek V3.2更便宜($0.19/M output),纯 MIT 许可编码能力弱一档
Qwen3-235B生态最大,下载量最多编码 benchmark 低于 M2.5
GLM-5综合排名 #1不如 M2.5 专注编码
Claude Sonnet多模态+更好的推理贵 10 倍+

给投资人

市场分析

  • 赛道: 开源 AI 基础模型 + AI Agent 基础设施
  • GPT-4 级性能成本: 从 2023 年 $30/M tokens 降至 2026 年 <$1/M,每年 10-100 倍降幅
  • 推理成本趋势: MiniMax 自身推理成本年降 45%
  • AI Agent 市场: 企业自动化复杂工作流的需求爆发,M2.5 的低成本让持续运行 Agent 首次变得经济可行

竞争格局

层级玩家定位
头部闭源Claude Opus, GPT-5最强综合能力,最贵
头部开源DeepSeek, GLM, Qwen各有所长,生态成熟
新锐开源MiniMax M2.5编码/Agent 专精,性价比极致
小模型Gemma, Phi, Llama端侧部署,轻量级

Timing 分析

  • 为什么是现在: 2025 年 DeepSeek R1 证明了小团队+开源可以做前沿模型,整个中国 AI 开源浪潮由此引爆。M2.5 是这波浪潮的最新高点。
  • 技术成熟度: MoE 架构已被验证(DeepSeek V3 也用了),Forge RL 框架是差异化竞争力
  • 市场准备度: OpenCode 2.5M MAU、Claude Code 的普及证明开发者已经习惯了 AI 编码助手

团队背景

  • 创始人: 闫俊杰,中科院博士,商汤前副总裁(最年轻 VP)
  • 联合创始人: 云叶一,JHU+Columbia,商汤战略
  • 核心团队: 从商汤研究院出来的一批年轻人,平均年龄 <30
  • 过往成绩: 海螺视频(Hailuo Video)在 AI 视频生成领域有较高知名度

融资情况

  • 已融资: $850M(7 轮,4 年)
  • 关键投资人: 米哈游(天使)、高瓴资本、阿里巴巴($600M 领投)、云启资本
  • IPO: 2026 年 1 月港交所,首日涨 109%,市值 $12.8B
  • 财务: 2025 前 9 月收入 $53M,亏损 $211M,云计算支出 $150M+
  • 风险: 烧钱速度快($250M/年研发),收入还在早期阶段

结论

一句话判断:开源编码模型的里程碑,但还不是 Claude 杀手。

M2.5 在编码和 Agent 工具调用上达到了前沿水平,价格只要 Opus 的 1/20。但它不是全能选手——通用推理弱、不支持多模态、有话痨倾向。把它当作"编码和 Agent 专用的高性价比引擎"来用,而不是"Claude 替代品",期望值就对了。

用户类型建议
开发者强烈推荐试用。编码质量接近 Opus,成本低 20 倍,开源可本地部署。至少跑一个你自己的项目对比一下。
产品经理值得关注。"用自己的狗粮"策略和 MoE 降本路径都可借鉴。开源 AI 的性价比拐点已到。
博主好素材。"90 后创始人 $12.8B IPO"+"开源 AI 挑战硅谷",两个爆款叙事叠加。
早期采用者推荐。多个免费渠道可以零成本体验,$10/月订阅计划性价比极高。但别完全抛弃 Claude,复杂推理还是得靠它。
投资人谨慎关注。IPO 后 $12.8B 市值 vs $53M 年收入,估值偏高。但赛道好、技术强、团队执行力已验证。关键看能否把成本优势转化为商业规模。

资源链接

资源链接
官网minimax.io
GitHubMiniMax-AI/MiniMax-M2.5
HuggingFaceMiniMaxAI/MiniMax-M2.5
API 文档platform.minimax.io
Ollamaminimax-m2.5
OpenCode 集成opencode.ai
ProductHuntMiniMax-M2.5
Forge 论文MiniMax Forge
OpenHands 评测Blog

2026-02-19 | Trend-Tracker v7.3

一句话判断

M2.5 是开源编码模型的里程碑,凭借极致性价比成为编码和 Agent 场景的理想引擎,虽非全能选手,但在特定领域已具备替代顶级闭源模型的实力。

常见问题

关于 MiniMax-M2.5 的常见问题

上海 MiniMax 推出的开源 230B MoE 大模型,编码能力逼近 Claude Opus 但价格仅为其 1/20。

MiniMax-M2.5 的主要功能包括:SWE-Bench 80.2% 编码能力、BFCL 76.8% 工具调用、架构师思维自动规划、多语言编程支持。

API $0.15/M input 起;订阅制 $10/月起;本地部署免费。

开发者、AI Agent 研发团队、预算有限的中小企业及需要本地部署编码模型的个人。

MiniMax-M2.5 的主要竞品包括:Claude Opus 4.6, DeepSeek V3.2, GLM-5, Qwen3-235B。

数据来源: ProductHunt2026年2月19日
最后更新: