Step 3.5 Flash 是什么？

阶跃星辰发布的基于 MoE 架构、专为 Agent 场景优化的超高效率开源大语言模型。

Step 3.5 Flash 有哪些主要功能？

Step 3.5 Flash 的主要功能包括：LiveCodeBench 86.4 顶级代码推理、AIME 97.3 卓越数学表现、256K 超长上下文窗口、专为 Agent 优化的工具调用能力。

Step 3.5 Flash 如何收费？

API 价格极具竞争力（每百万输入仅 $0.10），OpenRouter 提供免费额度，本地部署完全免费。

Step 3.5 Flash 适合谁使用？

AI Agent 开发者、对成本敏感的独立开发者、注重数据隐私的企业架构师、AI 领域研究者。

Step 3.5 Flash 有哪些竞品？

Step 3.5 Flash 的主要竞品包括：Gemini 3 Flash, DeepSeek V3.2, Qwen 3.5。

Step 3.5 Flash：开源界的"以小博大"代表作

2026-03-06 | ProductHunt | GitHub | 官方博客

Step 3.5 Flash 智能密度对比图

这张散点图是 Step 3.5 Flash 最有说服力的一张图：横轴是模型总参数量，纵轴是综合性能得分。Step 3.5 Flash 用 196B 参数（仅 11B 活跃）打出了跟千亿级闭源模型相当的分数，"智能密度"遥遥领先。

30秒快速判断

这是什么：阶跃星辰 (StepFun) 发布的开源大语言模型，采用 MoE 架构将 196B 参数压缩到 11B 活跃参数运行，专为 Agent 场景优化，甚至能跑在 Mac Studio M4 Max 上。

值不值得关注：非常值得。这是目前开源模型中"参数效率"最高的选手之一，AIME 2025 数学推理跑出 97.3 分（与 GLM-4.7 并列第一），LiveCodeBench 达 86.4 分，而且采用 Apache 2.0 协议并提供 OpenRouter 免费 API。如果你在做 Agent 开发或者想摆脱昂贵的 API 费用，这是一个必须考虑的选项。

灵魂三问

与我有关吗？

目标用户：

AI Agent 开发者（需要可靠工具调用的）
对 API 成本极其敏感的独立开发者或初创团队
关注数据隐私、希望本地部署模型的企业
开源社区贡献者和 AI 研究人员

如果你符合以下任一条件，你就是目标用户：

每月 API 费用超过 $100，正在寻找高质量免费替代方案
正在开发 coding agent 或自动化工具，需要极快的推理响应
不希望将核心代码发送给第三方 API，追求本地化运行
正在研究 MoE 架构或强化学习 (RL) 训练方法

什么场景不需要这个：

仅用于日常闲聊或简单写作，Claude 或 GPT 的体验更细腻
缺乏高端硬件（如 M4 Max / DGX Spark），无法支撑本地运行
需要多模态能力（如图片/视频理解），Step 3.5 Flash 目前是纯文本模型

对我有用吗？

维度	收益	代价
时间	Agent 任务推理速度达 100-350 tok/s，比多数本地模型快数倍	部署与环境调试可能需要半天到一天
金钱	自部署零 API 费用；OpenRouter 提供免费试用额度	硬件门槛较高：需 M4 Max (~$4000+) 或 DGX 级别设备
精力	256K 上下文窗口，可一次性处理超长代码文件	工具调用兼容性尚有不足，需要手动调优

ROI 判断：如果你已经拥有合适的硬件，或者团队 API 月支出超过 $500，切换过来划算得惊人。如果只是个人小项目偶尔用用，没必要折腾部署。

有什么亮点？

爽点：

参数效率惊人：196B 参数只激活 11B，跑出了跟 DeepSeek V3.2（685B）相当的成绩，尽显"四两拨千斤"的快感。
真的能本地跑：在 Mac Ultra 上实测约 44 tok/s，MLX Q6.5 量化后 token 精度依然高达 96.95%。
开源诚意十足：不仅开源权重，连训练框架 Steptron、SFT 数据、RLVR 代码都计划全盘托出。

用户评价：

"这是第一个在 200B 参数量级且能通过 CLI 顺畅运行的本地 LLM，是本地模型进行 Agent 编码的最佳体验。" -- HackerNews 用户

"速度极快，且足够聪明，能处理绝大多数复杂任务。" -- @hung-truong 博客评测

"阶跃星辰进一步拓宽了开源的边界，除了最终模型，还开源了训练框架和中间态模型。" -- @dddanielwang

避坑指南：

与 OpenClaw 搭配使用时"似乎经常卡死，稳定性有待提高" -- @hung-truong

工具调用开箱体验不完善，与 Claude Code 等部分流行框架不兼容 -- NVIDIA 开发者论坛

给独立开发者

技术栈

架构：Sparse Mixture of Experts (MoE)
- 总参数 196B，每个 token 仅激活 11B
- 每层包含 288 个路由专家 + 1 个始终激活的共享专家
- 采用 Top-8 专家选择策略
- 45 层结构，hidden size 4096，词汇表 128,896
推理加速：3-way Multi-Token Prediction (MTP-3)
- 训练和推理阶段均使用 MTP（业界少见）
- 单次前向传播可预测 4 个 token
- 实测 100-300 tok/s，编码任务峰值可达 350 tok/s
上下文：256K tokens，采用 3:1 滑动窗口注意力机制
量化部署：支持 GGUF/INT4，MLX Q6.5 版本可在 Mac Ultra 上流畅运行

核心功能实现

Step 3.5 Flash 的核心创新在于"智能密度"——利用可扩展的强化学习 (RL) 框架持续提升 Agent 能力。它在思维链 (CoT) 推理中集成了 Python 代码执行，在 AIME 2025 中跑出了 99.8 的高分。此外，它配备了 DockSmith + Session-Router 系统，覆盖了 50K 环境和 20 多种编程语言的 Agent 场景。

开源情况

是否开源：是，采用 Apache 2.0 协议（商业应用极其友好）
开源深度：模型权重 + 训练框架 Steptron + SFT 数据 + RLVR + 评估集（陆续发布中）
GitHub: https://github.com/stepfun-ai/Step-3.5-Flash
HuggingFace: https://huggingface.co/stepfun-ai/Step-3.5-Flash
arXiv 论文: https://arxiv.org/html/2602.10604v1
自研难度：极高。需要万卡集群、海量高质量数据及深厚的 MoE 工程积淀。

商业模式

变现方式：通过开源模型积累口碑与生态 → API 平台按量收费 → 企业级私有化部署服务
API 定价：$0.10/M input，$0.30/M output（比 Gemini 3.1 Flash-Lite 便宜约 5 倍）
OpenRouter 优惠：目前提供免费 API 额度供开发者试用

巨头风险

存在竞争，但具备差异化优势。Google Gemini 3 Flash 和 GPT-5.3 Instant 是强力对手，但 Step 3.5 Flash 的杀手锏在于：1) 完全开源可本地化；2) 参数效率极高；3) Apache 2.0 协议无商业限制。不过 Qwen 3.5 和 DeepSeek V3.2 同样处于顶级梯队，竞争依然白热化。

给产品经理

痛点分析

解决的问题：闭源 API 成本失控、普通开源模型逻辑偏弱、Agent 场景对响应速度的极致要求。
痛点程度：高频且刚需。企业级开发者每月在 API 上的开销巨大，且对数据隐私高度敏感。

用户画像

核心用户：AI Agent 开发者、初创公司 CTO、开源社区活跃分子
延伸用户：AI 研究员（学习 MoE 与 RL 训练）、注重成本控制的中小企业
使用场景：自动化代码审查、智能测试、Agent 任务编排、长文档知识库分析

功能拆解

功能	类型	说明
代码推理 (LiveCodeBench 86.4)	核心	在编码任务中表现极其优异
数学推理 (AIME 97.3)	核心	逻辑与数学能力处于行业前沿
Agent 工具调用	核心	专门针对智能体场景进行指令优化
256K 长上下文	核心	轻松处理大型代码库或超长技术文档
本地化部署	亮点	满足高安全性需求，但需高端硬件支持
深度研究 (Deep Research)	亮点	得分 65.27%，逼近 OpenAI/Gemini 的研究水平

竞品差异

维度	Step 3.5 Flash	Gemini 3 Flash	DeepSeek V3.2	Qwen 3.5
参数规模	196B/11B 活跃	闭源	685B/37B 活跃	397B
开源协议	Apache 2.0	不开源	MIT	开源
API 价格	$0.10/$0.30	$0.50/$3.00	开源自部署	开源自部署
数学 (AIME)	97.3	-	89.3	-
代码 (LCB)	86.4	-	-	83.6
本地运行	M4 Max 即可跑	不支持	硬件需求更高	硬件需求更高

可借鉴的点

"智能密度"的品牌定位：不盲目追求参数规模，而是强调单位参数的智能产出，这个叙事非常高明。
以开源深度构建护城河：不仅给模型，还给训练方案，以此快速建立开发者社区的信任。
生态绑定策略：通过与 Agent 平台 (OpenClaw) 深度绑定，实现模型与平台的双向引流。

给科技博主

创始人故事

创始人：姜大昕 (Jiang Daxin)
背景：前微软全球副总裁，在微软必应 (Bing) 搜索等核心领域深耕多年。
创业初衷：ChatGPT 爆发后深受震撼，认为 AGI 的机会窗口就在当下，毅然放弃高管职位投身创业。
豪华团队阵容：
- 印奇（旷视科技联合创始人）出任董事长
- 张祥雨（ResNet 共同作者）出任首席科学家
- 朱亦博（前微软/字节/Google 资深专家）任 CTO
- 焦斌星（前微软 Bing 搜索核心负责人）负责数据
使命："智能阶跃，十倍每一个人的可能"

争议点/讨论角度

榜单水分讨论：HackerNews 上有声音质疑 benchmark 是否经过特殊优化，呼吁更多第三方实测。
开源 vs 闭源之战：2026 年被视为性能对齐的关键年，Step 3.5 Flash 是这场竞赛中的标志性事件。
中国 AI 力量出海：阶跃星辰作为中国 AI 独角兽，其 7 亿美元的巨额融资与港股 IPO 计划备受瞩目。
"小模型大智慧"趋势：196B 总参仅激活 11B，这是否预示着未来大模型发展的新范式？

热度数据

PH 表现：101 票支持
社区讨论：HackerNews 热门帖，Twitter/X 上 OpenRouter 官方力荐。
专家背书：知名 ML 作者 Sebastian Raschka 将其列入"2026 年必看的十大开源架构"。
平台支持：NVIDIA NIM 和 SiliconFlow 均已第一时间上线支持。

内容建议

选题角度："为什么 2026 年做 Agent 不用再付 API 费" / "一台 Mac 就能跑的前沿模型到底有多强？"
蹭热点机会：结合开源闭源性能对齐的话题，将 Step 3.5 Flash 作为典型案例进行深度拆解。

给早期采用者

定价分析

层级	价格	包含功能	评价
自部署	免费	全部功能	需自备高端硬件
OpenRouter 免费版	$0	有限额度	试用首选
StepFun 官方 API	$0.10/$0.30 每百万 token	完整 API 服务	价格极低

上手指南

最快体验：直接使用 OpenRouter 免费 API，注册即用。
本地部署：建议配备 Mac Studio M4 Max (需约 150GB RAM) 或 NVIDIA DGX 级别工作站。
搭配框架：参考 OpenClaw 官方 Cookbook，但需注意处理潜在的稳定性问题。
学习曲线：API 调用（极低）/ 本地部署（中等）/ 微调开发（较高）。
操作步骤：
1. 注册 OpenRouter 获取 API Key。
2. 在 Agent 框架中配置 Base URL 和 Model ID (step-3.5-flash)。
3. 将上下文窗口设置为 256K 以发挥长文本优势。
4. 如需本地运行，前往 HuggingFace 下载 GGUF 或 MLX 量化版本。

避坑指南

工具调用不完美：在某些 Agent 框架（如 Claude Code）中可能需要手动调整 Prompt 才能正常工作。
输出略显啰嗦：相比 Gemini 3.0 Pro，它有时会消耗更多 token 来表达相同意思。
非代码场景波动：在处理非其擅长的特定领域任务时，表现可能不如通用大模型稳定。

安全与隐私

数据安全：自部署模式下数据完全留在本地，无泄露风险。
代码审计：全开源架构，企业可自行进行安全审计。
商用无忧：Apache 2.0 协议支持无限制商业化使用。

替代方案

替代品	优势	劣势
DeepSeek V3.2	社区生态极大，全能表现	685B 参数对硬件要求极高
Qwen 3.5	综合评分极高，代码能力强	397B 参数规模较大
Qwen3-Coder-Next	3B 活跃参数，极致效率	通用逻辑能力相对较弱
Gemini 3 Flash	无需维护，API 极其稳定	闭源且存在持续费用

给投资人

市场分析

赛道潜力：全球开源 AI 模型市场增长迅猛，企业对自主可控模型的需求日益增加。
核心趋势：超过 63% 的企业已开始采用开源 AI，开源模型在数量上已占据 62.8% 的市场份额。
驱动力：API 成本压力、数据隐私法规趋严以及 MoE 等架构带来的效率革命。

竞争格局

层级	代表玩家	定位
头部闭源	OpenAI, Google, Anthropic	性能天花板，但价格昂贵且封闭
头部开源	DeepSeek, 阿里 Qwen, 智谱 GLM	大参数、全能型选手
效率派开源	StepFun (Step 3.5 Flash), Mistral	参数效率与智能密度优先
垂直开源	Kimi, Qwen-Coder	专注特定垂直领域

Timing 分析

为何是现在：
1. MoE 架构技术成熟，实现了"小参数、高智能"的跨越。
2. 开源与闭源的性能差距已缩小到个位数，平替时代开启。
3. Agent 浪潮对低延迟、低成本推理引擎的需求达到顶峰。
4. 消费级硬件算力的提升让 200B 级模型的本地运行成为可能。

团队与融资

团队背景：微软、字节、Google 背景的顶级工程团队，创始人姜大昕具备极高的行业号召力。
融资进展：2026 年 1 月完成 B+ 轮超 50 亿人民币融资，创下中国 AI 领域单轮融资纪录。
资本方：腾讯、启明创投、五源资本、上海国资等顶级机构加持。
上市计划：计划于 2026 年内赴港上市，目标融资约 5 亿美元，是目前中国 AI 赛道最核心的标的之一。

结论

一句话总结：Step 3.5 Flash 完美诠释了"模型不在大，够聪明就行"。它以 11B 的活跃参数跑出了 S 级性能，是 2026 年开源 AI 效率竞赛的巅峰之作。

用户类型	建议
开发者	强烈关注 -- Apache 2.0 + 极致性能 + 免费 API，Agent 开发的首选。
产品经理	深度研究 -- 其"智能密度"的定位和全流程开源策略极具参考价值。
博主	值得一写 -- 创始人情怀、中国 AI 出海、开源闭源之争，话题性十足。
早期采用者	按需尝试 -- 优先通过 OpenRouter 试用，本地部署需评估硬件成本。
投资人	紧盯 IPO -- 作为中国 AI "六小虎"之一，其上市进程是行业风向标。

资源链接

资源	链接
官网	https://www.stepfun.com
GitHub	https://github.com/stepfun-ai/Step-3.5-Flash
HuggingFace	https://huggingface.co/stepfun-ai/Step-3.5-Flash
arXiv 论文	https://arxiv.org/html/2602.10604v1
官方博客	https://static.stepfun.com/blog/step-3.5-flash/
API 平台	https://platform.stepfun.com
OpenRouter (免费)	https://openrouter.ai/stepfun/step-3.5-flash:free
NVIDIA NIM	https://build.nvidia.com/stepfun-ai/step-3.5-flash/modelcard
ProductHunt	https://www.producthunt.com/products/step-3-5-flash

2026-03-06 | Trend-Tracker v7.3

Step 3.5 Flash