Qwen3.5 Small:9B 参数干翻 120B,端侧 AI 的"iPhone 时刻"来了
2026-03-04 | ProductHunt (301票) | GitHub | HuggingFace
30秒快速判断
这东西干嘛的:阿里通义千问团队发布的 4 个"小"模型(0.8B/2B/4B/9B),能跑在手机和笔记本上,原生支持文本+图片+视频,9B 模型在多个基准测试(benchmark)上超过了 OpenAI GPT-OSS-120B。
值不值得关注:必须关注。这不是"又一个小模型"——它代表了行业风向的根本转变:从"堆参数"到"提密度"。Elon Musk 都评价说它拥有 "令人印象深刻的智能密度"。Apache 2.0 开源,零成本上手。
与我有关三问
与我有关吗?
目标用户是谁:
- 想在本地跑 AI 的开发者(不想付 API 费、不想数据上云)
- 做端侧/嵌入式 AI 产品的团队(手机 App、IoT、车载系统)
- 需要处理多语言+多模态任务的独立开发者
- 对隐私敏感的企业和个人用户
我是吗:如果你有以下任何一个场景,你就是目标用户——
- 想在 Mac/PC 上跑一个"私人 ChatGPT"
- 做 AI 产品但被昂贵的 API 费用搞得头大
- 需要处理文档/图片/视频的自动化流程
- 想给 App 加个本地 AI 功能但不想依赖云端
什么场景会用到:
- 本地代码助手 → 用 9B 配合 OpenCode CLI 做轻量化编程
- 文档解析 → 9B 在 OmniDocBench 得分 87.7,碾压同级别对手
- 手机端视频理解 → 0.8B/2B 能在 iPhone 上离线分析 60 秒视频
- 隐私敏感场景 → 数据完全不出本地,安全可控
对我有用吗?
| 维度 | 收益 | 代价 |
|---|---|---|
| 时间 | 省掉 API 调用延迟,本地推理可达 80+ tok/s | 首次部署需要 30-60 分钟折腾 |
| 金钱 | 完全免费,每年可省下 $240-600 的 API 订阅费 | 需要一台 16GB 显存的 GPU 或 32GB RAM 的 Mac |
| 精力 | 一键 ollama run qwen3.5:9b 就能跑 | 想用好思考模式和工具调用需要踩不少坑 |
ROI 判断:如果你有一台 16GB 显存的显卡或者 M 系列芯片的 Mac,这基本上是"白给"的生产力——免费、本地、够用。但如果你期待它能完全替代 Claude Opus 4.6 或 GPT-5 做复杂推理,那还差得远。把它当作"本地执行层"搭配云端"规划层"使用,ROI 最高。
喜闻乐见吗?
爽点在哪:
- 9B 打 120B:这个数字本身就够刺激。用 1/13 的参数量在多个测试中实现超越,说明架构创新比单纯堆参数更重要。
- 手机能跑:0.8B 模型能在 iPhone 上流畅运行,想象一下离线版 AI 助手的潜力。
- 一个模型搞定一切:文本、图片、视频都是同一套权重,不需要各种插件拼装。
"哇"的瞬间:
"这是第一个在本地运行极快,且在处理简单任务时真正有用的模型。" — @Joseph_Richard7
"我已经在仅有 CPU 的环境下,通过 Ollama 在本地跑起了 Qwen 3.5-9B。在 32GB 内存上表现惊人地好。" — @olekslev69
真实吐槽:
"在 16GB 的 Mac mini 上跑 Qwen 3.5 9B,我对它说个 'hi' 居然花了 32 秒才回我。笑死,根本没法用。" — @DNormandin1234
"刚试了下 Qwen 3.5 9B,为了理解我的一句简单对话,它居然花了 7 段话的篇幅在那‘思考’……" — @thetechnocrat0
给独立开发者
技术栈
- 架构: 混合注意力机制 = Gated Delta Networks (线性注意力) + Full Attention,比例为 3:1
- MoE: 稀疏混合专家系统,35B-A3B 版本仅激活 8.6% 的参数
- 多模态: 早期融合(Early Fusion)训练,DeepStack Vision Transformer,Conv3d 处理视频流
- 训练: 采用缩放强化学习 (Scaled RL),而非传统的 SFT
- 推理框架: 支持 vLLM / SGLang / llama.cpp / Ollama / MLX
核心功能实现
Qwen3.5 的技术突破在于用 Gated DeltaNet 替换了 75% 的注意力层。传统 Transformer 的注意力机制是 O(n^2) 复杂度,DeltaNet 把它降到了 O(n)。具体做法是:每个线性注意力层把输入序列压缩到固定大小的状态,结合来自 Mamba2 的门控衰减机制和 Delta Rule 的隐状态更新。每 4 层保留一层全注意力来维持"联想记忆"能力。
结果:在 32K 上下文下解码速度比 Qwen3-Max 快 8.6 倍,256K 下快 19 倍。
开源情况
- 许可证: Apache 2.0,支持商用、修改和分发
- 模型权重: 已上线 HuggingFace + ModelScope,提供 Instruct 和 Base 版本
- 衍生生态: 全球已有 180,000+ 衍生模型,是第二名的两倍多
- 自己做难度: 极高。混合 DeltaNet + MoE 架构需要深厚的系统工程能力和海量训练数据,但你可以直接基于它进行微调(fine-tune)。
商业模式
- 模型免费: Apache 2.0 协议,随意使用
- 阿里的变现: 阿里云 API 调用收费 + 云基础设施租赁。云收入 Q2 同比增长 34%,AI 产品收入连续 8 个季度双位数增长
- 策略: 经典的"开源养生态 → 生态反哺云"打法,与 Meta 开源 Llama 的逻辑类似
巨头风险
说白了,Qwen 本身就是巨头产品。但对于用 Qwen 做产品的独立开发者来说:
- 好消息: Apache 2.0 意味着你不会被"断供",即使阿里不做了,社区也能接手
- 坏消息: Google (Gemma)、Meta (Llama)、OpenAI (GPT-OSS) 都在同一赛道竞争,模型差异化的窗口期很短
- 建议: 不要把赌注押在单一模型上,架构上要做好模型切换的解耦能力
给产品经理
痛点分析
- 解决什么问题: 企业和开发者需要在端侧/本地运行强大的 AI,但大模型太重跑不动,小模型又太蠢没法用
- 痛点有多痛: 高频刚需。2026 年已有超过 20 亿部智能手机运行本地 SLM。75% 的企业 AI 部署选择本地模型以处理敏感数据。端侧 AI 是增速最快的细分市场 (CAGR 27.25%)
用户画像
| 画像 | 场景 | 选哪个 |
|---|---|---|
| 手机 App 开发者 | 在 iOS/Android 嵌入离线 AI | 0.8B / 2B |
| 全栈独立开发者 | 本地 AI 助手 / Code Copilot | 9B |
| 企业 IT | 内部文档解析、合规审查 | 4B / 9B |
| AI 研究者 | 快速原型开发、微调实验 | 0.8B / 2B |
功能拆解
| 功能 | 类型 | 说明 |
|---|---|---|
| 原生多模态 (文本+图+视频) | 核心 | 非拼装模型,通过早期融合训练实现 |
| 262K 上下文窗口 | 核心 | 连 2B 模型都有,这在小模型中极其罕见 |
| 201 种语言支持 | 核心 | 248K 词表,覆盖范围极广 |
| Multi-Token Prediction | 核心 | 显著加速推理过程 |
| 像素级 UI 交互 | 锦上添花 | 能够导航桌面及手机 UI 界面 |
| 思考模式 (CoT) | 锦上添花 | 默认关闭,可根据需求手动开启 |
竞品差异
| 维度 | Qwen3.5-9B | GPT-OSS-120B | Gemma 3 27B | Llama 4 |
|---|---|---|---|---|
| 参数量 | 9B | 120B | 27B | 各种尺寸 |
| GPQA Diamond | 81.7 | 71.5 | 42.4 | - |
| MMMU-Pro | 70.1 | 59.7 | - | - |
| 本地可跑性 | 普通笔记本即可 | 需要服务器集群 | 需要高端单 GPU | 需要单 GPU |
| 多模态能力 | 原生融合 | 文本为主 | 具备视觉能力 | 具备视觉能力 |
| 许可证 | Apache 2.0 | 受限 | 受限 | 受限 |
可借鉴的点
- "少即是多"的产品定位:不盲目喊"最大最强",而是主打"更聪明、更省算力",精准切中用户痛点
- 16 天发布 9 款模型的节奏:制造高频曝光,持续占据行业话题中心
- 分层模型矩阵:从 0.8B 到 397B 全线覆盖,每个尺寸都对应明确的部署场景
- 开源即营销:Apache 2.0 吸引全球开发者免费试用,最终转化为阿里云的长期收入
给科技博主
创始人/团队故事
- 核心人物: 林俊洋 (Junyang Lin),Qwen 技术负责人
- 背景: 2019 年加入阿里巴巴,2023 年 4 月正式加入 Qwen 团队
- 戏剧性转折: Qwen3.5 Small 发布仅一天后(3月3日),林俊洋在 X 上宣布离职。同事评价其离职为"一个时代的结束"。这是这条新闻最好的流量"钩子"
- 团队规模: 100+ 开发者,据彭博社报道占据了阿里大楼的两层。在不到两年的时间里发布了 357 个模型
争议点/讨论角度
- Benchmark 注水质疑?: Anthropic CEO Dario Amodei 曾公开质疑中国模型"针对基准测试过度优化,实际体验没那么强"
- 复杂任务"崩塌": 社区测试发现,在专家级编码任务上,其 ELO 分数从 1550 暴跌至 1194
- 核心人物出走: 技术 Leader 在重磅产品发布次日离职,究竟是"功成身退"还是"内部矛盾"?
- 9B 打 120B 的含金量: 到底是架构层面的降维打击,还是挑选了对自己有利的测试集?
热度数据
- ProductHunt: 301 票
- Elon Musk 点赞: 评价其具有 "令人印象深刻的智能密度"
- HuggingFace: 累计下载量 3 亿+,衍生模型超过 180,000 个
- 媒体覆盖: VentureBeat、TechCrunch、CNBC 等主流媒体均进行了深度报道
内容建议
- 深度角度: "技术 Leader 发完产品就走人:Qwen3.5 发布背后的阿里 AI 权力暗战"
- 技术科普: "9B 干翻 120B 的秘密武器:Delta Network 到底是什么黑科技?"
- 热点结合: 马斯克点赞 + 中美 AI 算力竞赛 + 为什么端侧 AI 是下一个财富风口
给早期采用者
定价分析
| 层级 | 价格 | 包含功能 | 够用吗? |
|---|---|---|---|
| 开源(本地) | 完全免费 | 所有核心功能 | 够用,但对硬件有一定要求 |
| 阿里云 API | 按量计费 | 云端高并发调用 | 方便但存在网络延迟 |
| 第三方托管 | ~$0.05-0.30/M tokens | 托管推理服务 | 适合没有高端 GPU 的用户 |
上手指南
- 上手时间: 10 分钟(使用 Ollama)
- 学习曲线: 极低
- 步骤:
- 安装 Ollama:
curl -fsSL https://ollama.com/install.sh | sh - 拉取模型:
ollama run qwen3.5:9b(自动下载约 6.6GB 数据) - 开始聊天 — 流程极其顺滑
- (可选)启用思考模式: 使用 llama-server 并配置
--chat-template-kwargs '{"enable_thinking":true}'
- 安装 Ollama:
坑和吐槽
- Ollama 工具调用 Bug: 格式映射有误,Ollama 发送的是 Hermes JSON,但模型训练使用的是 Qwen3-Coder XML 格式
- 思考模式会"想太多": 简单问题也可能长篇大论地分析,建议日常使用时关闭思考模式
- 低配 Mac 跑不动: 16GB 的 Mac Mini 纯 CPU 推理需要 32 秒才出第一个字。必须有 GPU 或 Apple Silicon 的 Metal 加速
- MLX 框架缓存崩溃: Apple Silicon 用户需留意 mlx-lm 的已知 bug
安全和隐私
- 数据存储: 完全本地化,数据不上传云端
- 许可证: Apache 2.0,目前最宽松的开源许可之一
- 内容审查: 作为中国模型,在某些特定敏感主题上可能存在安全过滤
- 身份认知: 有报告称模型曾偶尔自称"由 Google 制造",但在思考链中会自我纠正
替代方案
| 替代品 | 优势 | 劣势 |
|---|---|---|
| Gemma 3 27B | Google 生态、支持 140+ 语言 | 推理能力较弱 (GPQA 差距明显) |
| Llama 4 Scout | Meta 生态、社区支持极其强大 | 多模态能力不如 Qwen 原生融合 |
| Phi-4 (Microsoft) | 小巧精悍、逻辑推理强 | 生态规模较小、许可限制较多 |
| Mistral 24B | 欧洲血统、通用能力非常稳定 | 不支持原生多模态 |
给投资人
市场分析
- SLM 赛道规模: 2023 年 $77.6 亿 → 2030 年预计达 $207 亿 (CAGR 15.1%)
- 端侧 AI 部署增速: 27.25% CAGR,是目前增长最快的 AI 部署路径
- 大盘趋势: 全球 LLM 市场 2026 年约 $100 亿,2035 年预计达 $1,799 亿
- 驱动因素: 隐私法规收紧 + 端侧算力爆发 + API 成本压力 + 离线使用场景需求
竞争格局
| 层级 | 玩家 | 定位 |
|---|---|---|
| 头部(闭源) | OpenAI, Anthropic, Google | 探索前沿超大模型 |
| 头部(开源) | 阿里 Qwen, Meta Llama | 构建全球开源生态霸权 |
| 腰部玩家 | Mistral, 智谱 GLM | 寻找差异化市场定位 |
| 端侧专精 | Google Gemma, Microsoft Phi | 极致的小模型优化 |
| 新进入者 | Qwen3.5 Small | 精准填补 Qwen 在端侧的空白 |
Timing 分析
- 为什么是现在: 2026 年是 SLM 的拐点——全球 20 亿+ 手机具备跑本地模型的能力。Gated DeltaNet 等新架构让"小模型战胜大模型"从幻想变为现实
- 技术成熟度: 架构创新(DeltaNet + MoE)已在生产环境证明可行,不再是实验室玩具
- 市场准备度: Ollama 月活破千万,本地 AI 的基础设施和用户习惯已经成熟
团队背景
- 母公司: 阿里巴巴集团 (NYSE: BABA)
- AI 投入: 3 年累计投入 $532 亿,单季度 CapEx 达 386 亿元人民币
- 团队规模: 100+ 核心成员,两年高频发布 357 个模型
- 核心成果: 打造了全球最大的开源模型家族,累计下载量破 3 亿
- 风险信号: 技术负责人林俊洋于 3 月 3 日突然离职
融资/财务
- 阿里云 Q2 收入: $55.9 亿 (同比增长 34%)
- 年化 Run Rate: 超过 $220 亿
- AI 产品收入: 已连续 8 个季度保持双位数增长
- 项目属性: Qwen 是阿里云的战略级武器,目前不接受独立融资
结论
一句话判断:Qwen3.5 Small 是 2026 年 3 月最重要的端侧 AI 发布 — 它有力证明了"9B 参数能打 120B"绝非噱头,而是架构创新的胜利。对于独立开发者而言,这是"免费午餐"的最新、最强版本。
| 用户类型 | 建议 |
|---|---|
| 开发者 | 必须尝试。ollama run qwen3.5:9b,10 分钟上手。但不要指望它能完全替代顶级闭源模型处理极端复杂任务 |
| 产品经理 | 重点关注。"小参数 + 原生多模态 + 极致端侧优化"的组合定义了 SLM 新标杆,有很多值得借鉴的产品逻辑 |
| 博主 | 绝佳素材。"马斯克点赞 + 技术大牛离职 + 9B 逆袭 120B",话题性拉满 |
| 早期采用者 | 建议入坑。完全免费,6.6GB 即可运行,虽然工具调用还有小 Bug,但瑕不掩瑜 |
| 投资人 | 持续跟踪。SLM + 端侧 AI 是确定性极强的风口,关注阿里巴巴整体 AI 战略的协同效应 |
资源链接
2026-03-04 | Trend-Tracker v7.3