Step 3.5 Flash:开源界的"以小博大"代表作
2026-03-06 | ProductHunt | GitHub | 官方博客

这张散点图是 Step 3.5 Flash 最有说服力的一张图:横轴是模型总参数量,纵轴是综合性能得分。Step 3.5 Flash 用 196B 参数(仅 11B 活跃)打出了跟千亿级闭源模型相当的分数,"智能密度"遥遥领先。
30秒快速判断
这是什么:阶跃星辰 (StepFun) 发布的开源大语言模型,采用 MoE 架构将 196B 参数压缩到 11B 活跃参数运行,专为 Agent 场景优化,甚至能跑在 Mac Studio M4 Max 上。
值不值得关注:非常值得。这是目前开源模型中"参数效率"最高的选手之一,AIME 2025 数学推理跑出 97.3 分(与 GLM-4.7 并列第一),LiveCodeBench 达 86.4 分,而且采用 Apache 2.0 协议并提供 OpenRouter 免费 API。如果你在做 Agent 开发或者想摆脱昂贵的 API 费用,这是一个必须考虑的选项。
灵魂三问
与我有关吗?
目标用户:
- AI Agent 开发者(需要可靠工具调用的)
- 对 API 成本极其敏感的独立开发者或初创团队
- 关注数据隐私、希望本地部署模型的企业
- 开源社区贡献者和 AI 研究人员
如果你符合以下任一条件,你就是目标用户:
- 每月 API 费用超过 $100,正在寻找高质量免费替代方案
- 正在开发 coding agent 或自动化工具,需要极快的推理响应
- 不希望将核心代码发送给第三方 API,追求本地化运行
- 正在研究 MoE 架构或强化学习 (RL) 训练方法
什么场景不需要这个:
- 仅用于日常闲聊或简单写作,Claude 或 GPT 的体验更细腻
- 缺乏高端硬件(如 M4 Max / DGX Spark),无法支撑本地运行
- 需要多模态能力(如图片/视频理解),Step 3.5 Flash 目前是纯文本模型
对我有用吗?
| 维度 | 收益 | 代价 |
|---|---|---|
| 时间 | Agent 任务推理速度达 100-350 tok/s,比多数本地模型快数倍 | 部署与环境调试可能需要半天到一天 |
| 金钱 | 自部署零 API 费用;OpenRouter 提供免费试用额度 | 硬件门槛较高:需 M4 Max (~$4000+) 或 DGX 级别设备 |
| 精力 | 256K 上下文窗口,可一次性处理超长代码文件 | 工具调用兼容性尚有不足,需要手动调优 |
ROI 判断:如果你已经拥有合适的硬件,或者团队 API 月支出超过 $500,切换过来划算得惊人。如果只是个人小项目偶尔用用,没必要折腾部署。
有什么亮点?
爽点:
- 参数效率惊人:196B 参数只激活 11B,跑出了跟 DeepSeek V3.2(685B)相当的成绩,尽显"四两拨千斤"的快感。
- 真的能本地跑:在 Mac Ultra 上实测约 44 tok/s,MLX Q6.5 量化后 token 精度依然高达 96.95%。
- 开源诚意十足:不仅开源权重,连训练框架 Steptron、SFT 数据、RLVR 代码都计划全盘托出。
用户评价:
"这是第一个在 200B 参数量级且能通过 CLI 顺畅运行的本地 LLM,是本地模型进行 Agent 编码的最佳体验。" -- HackerNews 用户
"速度极快,且足够聪明,能处理绝大多数复杂任务。" -- @hung-truong 博客评测
"阶跃星辰进一步拓宽了开源的边界,除了最终模型,还开源了训练框架和中间态模型。" -- @dddanielwang
避坑指南:
与 OpenClaw 搭配使用时"似乎经常卡死,稳定性有待提高" -- @hung-truong
工具调用开箱体验不完善,与 Claude Code 等部分流行框架不兼容 -- NVIDIA 开发者论坛
给独立开发者
技术栈
- 架构:Sparse Mixture of Experts (MoE)
- 总参数 196B,每个 token 仅激活 11B
- 每层包含 288 个路由专家 + 1 个始终激活的共享专家
- 采用 Top-8 专家选择策略
- 45 层结构,hidden size 4096,词汇表 128,896
- 推理加速:3-way Multi-Token Prediction (MTP-3)
- 训练和推理阶段均使用 MTP(业界少见)
- 单次前向传播可预测 4 个 token
- 实测 100-300 tok/s,编码任务峰值可达 350 tok/s
- 上下文:256K tokens,采用 3:1 滑动窗口注意力机制
- 量化部署:支持 GGUF/INT4,MLX Q6.5 版本可在 Mac Ultra 上流畅运行
核心功能实现
Step 3.5 Flash 的核心创新在于"智能密度"——利用可扩展的强化学习 (RL) 框架持续提升 Agent 能力。它在思维链 (CoT) 推理中集成了 Python 代码执行,在 AIME 2025 中跑出了 99.8 的高分。此外,它配备了 DockSmith + Session-Router 系统,覆盖了 50K 环境和 20 多种编程语言的 Agent 场景。
开源情况
- 是否开源:是,采用 Apache 2.0 协议(商业应用极其友好)
- 开源深度:模型权重 + 训练框架 Steptron + SFT 数据 + RLVR + 评估集(陆续发布中)
- GitHub: https://github.com/stepfun-ai/Step-3.5-Flash
- HuggingFace: https://huggingface.co/stepfun-ai/Step-3.5-Flash
- arXiv 论文: https://arxiv.org/html/2602.10604v1
- 自研难度:极高。需要万卡集群、海量高质量数据及深厚的 MoE 工程积淀。
商业模式
- 变现方式:通过开源模型积累口碑与生态 → API 平台按量收费 → 企业级私有化部署服务
- API 定价:$0.10/M input,$0.30/M output(比 Gemini 3.1 Flash-Lite 便宜约 5 倍)
- OpenRouter 优惠:目前提供免费 API 额度供开发者试用
巨头风险
存在竞争,但具备差异化优势。Google Gemini 3 Flash 和 GPT-5.3 Instant 是强力对手,但 Step 3.5 Flash 的杀手锏在于:1) 完全开源可本地化;2) 参数效率极高;3) Apache 2.0 协议无商业限制。不过 Qwen 3.5 和 DeepSeek V3.2 同样处于顶级梯队,竞争依然白热化。
给产品经理
痛点分析
- 解决的问题:闭源 API 成本失控、普通开源模型逻辑偏弱、Agent 场景对响应速度的极致要求。
- 痛点程度:高频且刚需。企业级开发者每月在 API 上的开销巨大,且对数据隐私高度敏感。
用户画像
- 核心用户:AI Agent 开发者、初创公司 CTO、开源社区活跃分子
- 延伸用户:AI 研究员(学习 MoE 与 RL 训练)、注重成本控制的中小企业
- 使用场景:自动化代码审查、智能测试、Agent 任务编排、长文档知识库分析
功能拆解
| 功能 | 类型 | 说明 |
|---|---|---|
| 代码推理 (LiveCodeBench 86.4) | 核心 | 在编码任务中表现极其优异 |
| 数学推理 (AIME 97.3) | 核心 | 逻辑与数学能力处于行业前沿 |
| Agent 工具调用 | 核心 | 专门针对智能体场景进行指令优化 |
| 256K 长上下文 | 核心 | 轻松处理大型代码库或超长技术文档 |
| 本地化部署 | 亮点 | 满足高安全性需求,但需高端硬件支持 |
| 深度研究 (Deep Research) | 亮点 | 得分 65.27%,逼近 OpenAI/Gemini 的研究水平 |
竞品差异
| 维度 | Step 3.5 Flash | Gemini 3 Flash | DeepSeek V3.2 | Qwen 3.5 |
|---|---|---|---|---|
| 参数规模 | 196B/11B 活跃 | 闭源 | 685B/37B 活跃 | 397B |
| 开源协议 | Apache 2.0 | 不开源 | MIT | 开源 |
| API 价格 | $0.10/$0.30 | $0.50/$3.00 | 开源自部署 | 开源自部署 |
| 数学 (AIME) | 97.3 | - | 89.3 | - |
| 代码 (LCB) | 86.4 | - | - | 83.6 |
| 本地运行 | M4 Max 即可跑 | 不支持 | 硬件需求更高 | 硬件需求更高 |
可借鉴的点
- "智能密度"的品牌定位:不盲目追求参数规模,而是强调单位参数的智能产出,这个叙事非常高明。
- 以开源深度构建护城河:不仅给模型,还给训练方案,以此快速建立开发者社区的信任。
- 生态绑定策略:通过与 Agent 平台 (OpenClaw) 深度绑定,实现模型与平台的双向引流。
给科技博主
创始人故事
- 创始人:姜大昕 (Jiang Daxin)
- 背景:前微软全球副总裁,在微软必应 (Bing) 搜索等核心领域深耕多年。
- 创业初衷:ChatGPT 爆发后深受震撼,认为 AGI 的机会窗口就在当下,毅然放弃高管职位投身创业。
- 豪华团队阵容:
- 印奇(旷视科技联合创始人)出任董事长
- 张祥雨(ResNet 共同作者)出任首席科学家
- 朱亦博(前微软/字节/Google 资深专家)任 CTO
- 焦斌星(前微软 Bing 搜索核心负责人)负责数据
- 使命:"智能阶跃,十倍每一个人的可能"
争议点/讨论角度
- 榜单水分讨论:HackerNews 上有声音质疑 benchmark 是否经过特殊优化,呼吁更多第三方实测。
- 开源 vs 闭源之战:2026 年被视为性能对齐的关键年,Step 3.5 Flash 是这场竞赛中的标志性事件。
- 中国 AI 力量出海:阶跃星辰作为中国 AI 独角兽,其 7 亿美元的巨额融资与港股 IPO 计划备受瞩目。
- "小模型大智慧"趋势:196B 总参仅激活 11B,这是否预示着未来大模型发展的新范式?
热度数据
- PH 表现:101 票支持
- 社区讨论:HackerNews 热门帖,Twitter/X 上 OpenRouter 官方力荐。
- 专家背书:知名 ML 作者 Sebastian Raschka 将其列入"2026 年必看的十大开源架构"。
- 平台支持:NVIDIA NIM 和 SiliconFlow 均已第一时间上线支持。
内容建议
- 选题角度:"为什么 2026 年做 Agent 不用再付 API 费" / "一台 Mac 就能跑的前沿模型到底有多强?"
- 蹭热点机会:结合开源闭源性能对齐的话题,将 Step 3.5 Flash 作为典型案例进行深度拆解。
给早期采用者
定价分析
| 层级 | 价格 | 包含功能 | 评价 |
|---|---|---|---|
| 自部署 | 免费 | 全部功能 | 需自备高端硬件 |
| OpenRouter 免费版 | $0 | 有限额度 | 试用首选 |
| StepFun 官方 API | $0.10/$0.30 每百万 token | 完整 API 服务 | 价格极低 |
上手指南
- 最快体验:直接使用 OpenRouter 免费 API,注册即用。
- 本地部署:建议配备 Mac Studio M4 Max (需约 150GB RAM) 或 NVIDIA DGX 级别工作站。
- 搭配框架:参考 OpenClaw 官方 Cookbook,但需注意处理潜在的稳定性问题。
- 学习曲线:API 调用(极低)/ 本地部署(中等)/ 微调开发(较高)。
- 操作步骤:
- 注册 OpenRouter 获取 API Key。
- 在 Agent 框架中配置 Base URL 和 Model ID (step-3.5-flash)。
- 将上下文窗口设置为 256K 以发挥长文本优势。
- 如需本地运行,前往 HuggingFace 下载 GGUF 或 MLX 量化版本。
避坑指南
- 工具调用不完美:在某些 Agent 框架(如 Claude Code)中可能需要手动调整 Prompt 才能正常工作。
- 输出略显啰嗦:相比 Gemini 3.0 Pro,它有时会消耗更多 token 来表达相同意思。
- 非代码场景波动:在处理非其擅长的特定领域任务时,表现可能不如通用大模型稳定。
安全与隐私
- 数据安全:自部署模式下数据完全留在本地,无泄露风险。
- 代码审计:全开源架构,企业可自行进行安全审计。
- 商用无忧:Apache 2.0 协议支持无限制商业化使用。
替代方案
| 替代品 | 优势 | 劣势 |
|---|---|---|
| DeepSeek V3.2 | 社区生态极大,全能表现 | 685B 参数对硬件要求极高 |
| Qwen 3.5 | 综合评分极高,代码能力强 | 397B 参数规模较大 |
| Qwen3-Coder-Next | 3B 活跃参数,极致效率 | 通用逻辑能力相对较弱 |
| Gemini 3 Flash | 无需维护,API 极其稳定 | 闭源且存在持续费用 |
给投资人
市场分析
- 赛道潜力:全球开源 AI 模型市场增长迅猛,企业对自主可控模型的需求日益增加。
- 核心趋势:超过 63% 的企业已开始采用开源 AI,开源模型在数量上已占据 62.8% 的市场份额。
- 驱动力:API 成本压力、数据隐私法规趋严以及 MoE 等架构带来的效率革命。
竞争格局
| 层级 | 代表玩家 | 定位 |
|---|---|---|
| 头部闭源 | OpenAI, Google, Anthropic | 性能天花板,但价格昂贵且封闭 |
| 头部开源 | DeepSeek, 阿里 Qwen, 智谱 GLM | 大参数、全能型选手 |
| 效率派开源 | StepFun (Step 3.5 Flash), Mistral | 参数效率与智能密度优先 |
| 垂直开源 | Kimi, Qwen-Coder | 专注特定垂直领域 |
Timing 分析
- 为何是现在:
- MoE 架构技术成熟,实现了"小参数、高智能"的跨越。
- 开源与闭源的性能差距已缩小到个位数,平替时代开启。
- Agent 浪潮对低延迟、低成本推理引擎的需求达到顶峰。
- 消费级硬件算力的提升让 200B 级模型的本地运行成为可能。
团队与融资
- 团队背景:微软、字节、Google 背景的顶级工程团队,创始人姜大昕具备极高的行业号召力。
- 融资进展:2026 年 1 月完成 B+ 轮超 50 亿人民币融资,创下中国 AI 领域单轮融资纪录。
- 资本方:腾讯、启明创投、五源资本、上海国资等顶级机构加持。
- 上市计划:计划于 2026 年内赴港上市,目标融资约 5 亿美元,是目前中国 AI 赛道最核心的标的之一。
结论
一句话总结:Step 3.5 Flash 完美诠释了"模型不在大,够聪明就行"。它以 11B 的活跃参数跑出了 S 级性能,是 2026 年开源 AI 效率竞赛的巅峰之作。
| 用户类型 | 建议 |
|---|---|
| 开发者 | 强烈关注 -- Apache 2.0 + 极致性能 + 免费 API,Agent 开发的首选。 |
| 产品经理 | 深度研究 -- 其"智能密度"的定位和全流程开源策略极具参考价值。 |
| 博主 | 值得一写 -- 创始人情怀、中国 AI 出海、开源闭源之争,话题性十足。 |
| 早期采用者 | 按需尝试 -- 优先通过 OpenRouter 试用,本地部署需评估硬件成本。 |
| 投资人 | 紧盯 IPO -- 作为中国 AI "六小虎"之一,其上市进程是行业风向标。 |
资源链接
2026-03-06 | Trend-Tracker v7.3