返回探索

Step 3.5 Flash

为 OpenClaw 智能体打造的前沿开源 MoE 模型

💡 Step 3.5 Flash 是由阶跃星辰(StepFun)推出的超高效开源大语言模型。它采用先进的 Sparse MoE(稀疏混合专家)架构,在拥有 196B 总参数量的同时,每次推理仅需激活 11B 参数。该模型专为 AI Agent(智能体)场景深度优化,在数学推理、代码生成及长文本处理方面表现卓越,且支持在 Mac Studio 等消费级硬件上实现高性能本地部署。

"它就像是一个“脑回路极短”的天才,虽然大脑知识库极其庞大,但每次思考只动用最精干的神经元,反应极快且极其省电。"

30秒快速判断
这App干嘛的:阶跃星辰发布的基于 MoE 架构、专为 Agent 场景优化的超高效率开源大语言模型。
值不值得关注:非常值得关注。它是目前开源界“参数效率”最高的模型之一,数学和代码推理能力处于顶尖水平,且协议极其宽松。
8/10

热度

9/10

实用

101

投票

产品画像
完整分析报告

Step 3.5 Flash:开源界的"以小博大"代表作

2026-03-06 | ProductHunt | GitHub | 官方博客

Step 3.5 Flash 智能密度对比图

这张散点图是 Step 3.5 Flash 最有说服力的一张图:横轴是模型总参数量,纵轴是综合性能得分。Step 3.5 Flash 用 196B 参数(仅 11B 活跃)打出了跟千亿级闭源模型相当的分数,"智能密度"遥遥领先。


30秒快速判断

这是什么:阶跃星辰 (StepFun) 发布的开源大语言模型,采用 MoE 架构将 196B 参数压缩到 11B 活跃参数运行,专为 Agent 场景优化,甚至能跑在 Mac Studio M4 Max 上。

值不值得关注:非常值得。这是目前开源模型中"参数效率"最高的选手之一,AIME 2025 数学推理跑出 97.3 分(与 GLM-4.7 并列第一),LiveCodeBench 达 86.4 分,而且采用 Apache 2.0 协议并提供 OpenRouter 免费 API。如果你在做 Agent 开发或者想摆脱昂贵的 API 费用,这是一个必须考虑的选项。


灵魂三问

与我有关吗?

目标用户

  • AI Agent 开发者(需要可靠工具调用的)
  • 对 API 成本极其敏感的独立开发者或初创团队
  • 关注数据隐私、希望本地部署模型的企业
  • 开源社区贡献者和 AI 研究人员

如果你符合以下任一条件,你就是目标用户

  • 每月 API 费用超过 $100,正在寻找高质量免费替代方案
  • 正在开发 coding agent 或自动化工具,需要极快的推理响应
  • 不希望将核心代码发送给第三方 API,追求本地化运行
  • 正在研究 MoE 架构或强化学习 (RL) 训练方法

什么场景不需要这个

  • 仅用于日常闲聊或简单写作,Claude 或 GPT 的体验更细腻
  • 缺乏高端硬件(如 M4 Max / DGX Spark),无法支撑本地运行
  • 需要多模态能力(如图片/视频理解),Step 3.5 Flash 目前是纯文本模型

对我有用吗?

维度收益代价
时间Agent 任务推理速度达 100-350 tok/s,比多数本地模型快数倍部署与环境调试可能需要半天到一天
金钱自部署零 API 费用;OpenRouter 提供免费试用额度硬件门槛较高:需 M4 Max (~$4000+) 或 DGX 级别设备
精力256K 上下文窗口,可一次性处理超长代码文件工具调用兼容性尚有不足,需要手动调优

ROI 判断:如果你已经拥有合适的硬件,或者团队 API 月支出超过 $500,切换过来划算得惊人。如果只是个人小项目偶尔用用,没必要折腾部署。

有什么亮点?

爽点

  • 参数效率惊人:196B 参数只激活 11B,跑出了跟 DeepSeek V3.2(685B)相当的成绩,尽显"四两拨千斤"的快感。
  • 真的能本地跑:在 Mac Ultra 上实测约 44 tok/s,MLX Q6.5 量化后 token 精度依然高达 96.95%。
  • 开源诚意十足:不仅开源权重,连训练框架 Steptron、SFT 数据、RLVR 代码都计划全盘托出。

用户评价

"这是第一个在 200B 参数量级且能通过 CLI 顺畅运行的本地 LLM,是本地模型进行 Agent 编码的最佳体验。" -- HackerNews 用户

"速度极快,且足够聪明,能处理绝大多数复杂任务。" -- @hung-truong 博客评测

"阶跃星辰进一步拓宽了开源的边界,除了最终模型,还开源了训练框架和中间态模型。" -- @dddanielwang

避坑指南

与 OpenClaw 搭配使用时"似乎经常卡死,稳定性有待提高" -- @hung-truong

工具调用开箱体验不完善,与 Claude Code 等部分流行框架不兼容 -- NVIDIA 开发者论坛


给独立开发者

技术栈

  • 架构:Sparse Mixture of Experts (MoE)
    • 总参数 196B,每个 token 仅激活 11B
    • 每层包含 288 个路由专家 + 1 个始终激活的共享专家
    • 采用 Top-8 专家选择策略
    • 45 层结构,hidden size 4096,词汇表 128,896
  • 推理加速:3-way Multi-Token Prediction (MTP-3)
    • 训练和推理阶段均使用 MTP(业界少见)
    • 单次前向传播可预测 4 个 token
    • 实测 100-300 tok/s,编码任务峰值可达 350 tok/s
  • 上下文:256K tokens,采用 3:1 滑动窗口注意力机制
  • 量化部署:支持 GGUF/INT4,MLX Q6.5 版本可在 Mac Ultra 上流畅运行

核心功能实现

Step 3.5 Flash 的核心创新在于"智能密度"——利用可扩展的强化学习 (RL) 框架持续提升 Agent 能力。它在思维链 (CoT) 推理中集成了 Python 代码执行,在 AIME 2025 中跑出了 99.8 的高分。此外,它配备了 DockSmith + Session-Router 系统,覆盖了 50K 环境和 20 多种编程语言的 Agent 场景。

开源情况

商业模式

  • 变现方式:通过开源模型积累口碑与生态 → API 平台按量收费 → 企业级私有化部署服务
  • API 定价:$0.10/M input,$0.30/M output(比 Gemini 3.1 Flash-Lite 便宜约 5 倍)
  • OpenRouter 优惠:目前提供免费 API 额度供开发者试用

巨头风险

存在竞争,但具备差异化优势。Google Gemini 3 Flash 和 GPT-5.3 Instant 是强力对手,但 Step 3.5 Flash 的杀手锏在于:1) 完全开源可本地化;2) 参数效率极高;3) Apache 2.0 协议无商业限制。不过 Qwen 3.5 和 DeepSeek V3.2 同样处于顶级梯队,竞争依然白热化。


给产品经理

痛点分析

  • 解决的问题:闭源 API 成本失控、普通开源模型逻辑偏弱、Agent 场景对响应速度的极致要求。
  • 痛点程度:高频且刚需。企业级开发者每月在 API 上的开销巨大,且对数据隐私高度敏感。

用户画像

  • 核心用户:AI Agent 开发者、初创公司 CTO、开源社区活跃分子
  • 延伸用户:AI 研究员(学习 MoE 与 RL 训练)、注重成本控制的中小企业
  • 使用场景:自动化代码审查、智能测试、Agent 任务编排、长文档知识库分析

功能拆解

功能类型说明
代码推理 (LiveCodeBench 86.4)核心在编码任务中表现极其优异
数学推理 (AIME 97.3)核心逻辑与数学能力处于行业前沿
Agent 工具调用核心专门针对智能体场景进行指令优化
256K 长上下文核心轻松处理大型代码库或超长技术文档
本地化部署亮点满足高安全性需求,但需高端硬件支持
深度研究 (Deep Research)亮点得分 65.27%,逼近 OpenAI/Gemini 的研究水平

竞品差异

维度Step 3.5 FlashGemini 3 FlashDeepSeek V3.2Qwen 3.5
参数规模196B/11B 活跃闭源685B/37B 活跃397B
开源协议Apache 2.0不开源MIT开源
API 价格$0.10/$0.30$0.50/$3.00开源自部署开源自部署
数学 (AIME)97.3-89.3-
代码 (LCB)86.4--83.6
本地运行M4 Max 即可跑不支持硬件需求更高硬件需求更高

可借鉴的点

  1. "智能密度"的品牌定位:不盲目追求参数规模,而是强调单位参数的智能产出,这个叙事非常高明。
  2. 以开源深度构建护城河:不仅给模型,还给训练方案,以此快速建立开发者社区的信任。
  3. 生态绑定策略:通过与 Agent 平台 (OpenClaw) 深度绑定,实现模型与平台的双向引流。

给科技博主

创始人故事

  • 创始人:姜大昕 (Jiang Daxin)
  • 背景:前微软全球副总裁,在微软必应 (Bing) 搜索等核心领域深耕多年。
  • 创业初衷:ChatGPT 爆发后深受震撼,认为 AGI 的机会窗口就在当下,毅然放弃高管职位投身创业。
  • 豪华团队阵容
    • 印奇(旷视科技联合创始人)出任董事长
    • 张祥雨(ResNet 共同作者)出任首席科学家
    • 朱亦博(前微软/字节/Google 资深专家)任 CTO
    • 焦斌星(前微软 Bing 搜索核心负责人)负责数据
  • 使命:"智能阶跃,十倍每一个人的可能"

争议点/讨论角度

  • 榜单水分讨论:HackerNews 上有声音质疑 benchmark 是否经过特殊优化,呼吁更多第三方实测。
  • 开源 vs 闭源之战:2026 年被视为性能对齐的关键年,Step 3.5 Flash 是这场竞赛中的标志性事件。
  • 中国 AI 力量出海:阶跃星辰作为中国 AI 独角兽,其 7 亿美元的巨额融资与港股 IPO 计划备受瞩目。
  • "小模型大智慧"趋势:196B 总参仅激活 11B,这是否预示着未来大模型发展的新范式?

热度数据

  • PH 表现:101 票支持
  • 社区讨论:HackerNews 热门帖,Twitter/X 上 OpenRouter 官方力荐。
  • 专家背书:知名 ML 作者 Sebastian Raschka 将其列入"2026 年必看的十大开源架构"。
  • 平台支持:NVIDIA NIM 和 SiliconFlow 均已第一时间上线支持。

内容建议

  • 选题角度:"为什么 2026 年做 Agent 不用再付 API 费" / "一台 Mac 就能跑的前沿模型到底有多强?"
  • 蹭热点机会:结合开源闭源性能对齐的话题,将 Step 3.5 Flash 作为典型案例进行深度拆解。

给早期采用者

定价分析

层级价格包含功能评价
自部署免费全部功能需自备高端硬件
OpenRouter 免费版$0有限额度试用首选
StepFun 官方 API$0.10/$0.30 每百万 token完整 API 服务价格极低

上手指南

  • 最快体验:直接使用 OpenRouter 免费 API,注册即用。
  • 本地部署:建议配备 Mac Studio M4 Max (需约 150GB RAM) 或 NVIDIA DGX 级别工作站。
  • 搭配框架:参考 OpenClaw 官方 Cookbook,但需注意处理潜在的稳定性问题。
  • 学习曲线:API 调用(极低)/ 本地部署(中等)/ 微调开发(较高)。
  • 操作步骤
    1. 注册 OpenRouter 获取 API Key。
    2. 在 Agent 框架中配置 Base URL 和 Model ID (step-3.5-flash)。
    3. 将上下文窗口设置为 256K 以发挥长文本优势。
    4. 如需本地运行,前往 HuggingFace 下载 GGUF 或 MLX 量化版本。

避坑指南

  1. 工具调用不完美:在某些 Agent 框架(如 Claude Code)中可能需要手动调整 Prompt 才能正常工作。
  2. 输出略显啰嗦:相比 Gemini 3.0 Pro,它有时会消耗更多 token 来表达相同意思。
  3. 非代码场景波动:在处理非其擅长的特定领域任务时,表现可能不如通用大模型稳定。

安全与隐私

  • 数据安全:自部署模式下数据完全留在本地,无泄露风险。
  • 代码审计:全开源架构,企业可自行进行安全审计。
  • 商用无忧:Apache 2.0 协议支持无限制商业化使用。

替代方案

替代品优势劣势
DeepSeek V3.2社区生态极大,全能表现685B 参数对硬件要求极高
Qwen 3.5综合评分极高,代码能力强397B 参数规模较大
Qwen3-Coder-Next3B 活跃参数,极致效率通用逻辑能力相对较弱
Gemini 3 Flash无需维护,API 极其稳定闭源且存在持续费用

给投资人

市场分析

  • 赛道潜力:全球开源 AI 模型市场增长迅猛,企业对自主可控模型的需求日益增加。
  • 核心趋势:超过 63% 的企业已开始采用开源 AI,开源模型在数量上已占据 62.8% 的市场份额。
  • 驱动力:API 成本压力、数据隐私法规趋严以及 MoE 等架构带来的效率革命。

竞争格局

层级代表玩家定位
头部闭源OpenAI, Google, Anthropic性能天花板,但价格昂贵且封闭
头部开源DeepSeek, 阿里 Qwen, 智谱 GLM大参数、全能型选手
效率派开源StepFun (Step 3.5 Flash), Mistral参数效率与智能密度优先
垂直开源Kimi, Qwen-Coder专注特定垂直领域

Timing 分析

  • 为何是现在
    1. MoE 架构技术成熟,实现了"小参数、高智能"的跨越。
    2. 开源与闭源的性能差距已缩小到个位数,平替时代开启。
    3. Agent 浪潮对低延迟、低成本推理引擎的需求达到顶峰。
    4. 消费级硬件算力的提升让 200B 级模型的本地运行成为可能。

团队与融资

  • 团队背景:微软、字节、Google 背景的顶级工程团队,创始人姜大昕具备极高的行业号召力。
  • 融资进展:2026 年 1 月完成 B+ 轮超 50 亿人民币融资,创下中国 AI 领域单轮融资纪录。
  • 资本方:腾讯、启明创投、五源资本、上海国资等顶级机构加持。
  • 上市计划:计划于 2026 年内赴港上市,目标融资约 5 亿美元,是目前中国 AI 赛道最核心的标的之一。

结论

一句话总结:Step 3.5 Flash 完美诠释了"模型不在大,够聪明就行"。它以 11B 的活跃参数跑出了 S 级性能,是 2026 年开源 AI 效率竞赛的巅峰之作。

用户类型建议
开发者强烈关注 -- Apache 2.0 + 极致性能 + 免费 API,Agent 开发的首选。
产品经理深度研究 -- 其"智能密度"的定位和全流程开源策略极具参考价值。
博主值得一写 -- 创始人情怀、中国 AI 出海、开源闭源之争,话题性十足。
早期采用者按需尝试 -- 优先通过 OpenRouter 试用,本地部署需评估硬件成本。
投资人紧盯 IPO -- 作为中国 AI "六小虎"之一,其上市进程是行业风向标。

资源链接

资源链接
官网https://www.stepfun.com
GitHubhttps://github.com/stepfun-ai/Step-3.5-Flash
HuggingFacehttps://huggingface.co/stepfun-ai/Step-3.5-Flash
arXiv 论文https://arxiv.org/html/2602.10604v1
官方博客https://static.stepfun.com/blog/step-3.5-flash/
API 平台https://platform.stepfun.com
OpenRouter (免费)https://openrouter.ai/stepfun/step-3.5-flash:free
NVIDIA NIMhttps://build.nvidia.com/stepfun-ai/step-3.5-flash/modelcard
ProductHunthttps://www.producthunt.com/products/step-3-5-flash

2026-03-06 | Trend-Tracker v7.3

一句话判断

Step 3.5 Flash 是 2026 年开源界“以小博大”的标杆之作,凭借极高的智能密度和商用友好的 Apache 2.0 协议,成为 Agent 开发和本地部署的顶级选择。

常见问题

关于 Step 3.5 Flash 的常见问题

阶跃星辰发布的基于 MoE 架构、专为 Agent 场景优化的超高效率开源大语言模型。

Step 3.5 Flash 的主要功能包括:LiveCodeBench 86.4 顶级代码推理、AIME 97.3 卓越数学表现、256K 超长上下文窗口、专为 Agent 优化的工具调用能力。

API 价格极具竞争力(每百万输入仅 $0.10),OpenRouter 提供免费额度,本地部署完全免费。

AI Agent 开发者、对成本敏感的独立开发者、注重数据隐私的企业架构师、AI 领域研究者。

Step 3.5 Flash 的主要竞品包括:Gemini 3 Flash, DeepSeek V3.2, Qwen 3.5。

数据来源: ProductHunt2026年3月6日
最后更新: