Qwen3.5 Small 是什么？

阿里通义千问发布的 4 个端侧小模型（0.8B-9B），其中 9B 版本性能在多项测试中超越了 120B 的超大模型。

Qwen3.5 Small 有哪些主要功能？

Qwen3.5 Small 的主要功能包括：原生多模态支持（文/图/视）、262K 超长上下文窗口、支持 201 种语言、Multi-Token Prediction 推理加速。

Qwen3.5 Small 如何收费？

开源本地版完全免费；阿里云 API 采用按量计费模式；第三方托管服务约 $0.05-0.30/M tokens。

Qwen3.5 Small 适合谁使用？

热衷本地运行 AI 的开发者、端侧/嵌入式 AI 开发团队、独立开发者以及对隐私极度敏感的企业用户。

Qwen3.5 Small 有哪些竞品？

Qwen3.5 Small 的主要竞品包括：GPT-OSS-120B, Gemma 3 27B, Llama 4, Phi-4, Mistral 24B。。

Qwen3.5 Small：9B 参数干翻 120B，端侧 AI 的"iPhone 时刻"来了

2026-03-04 | ProductHunt (301票) | GitHub | HuggingFace

30秒快速判断

这东西干嘛的：阿里通义千问团队发布的 4 个"小"模型（0.8B/2B/4B/9B），能跑在手机和笔记本上，原生支持文本+图片+视频，9B 模型在多个基准测试（benchmark）上超过了 OpenAI GPT-OSS-120B。

值不值得关注：必须关注。这不是"又一个小模型"——它代表了行业风向的根本转变：从"堆参数"到"提密度"。Elon Musk 都评价说它拥有 "令人印象深刻的智能密度"。Apache 2.0 开源，零成本上手。

与我有关三问

与我有关吗？

目标用户是谁：

想在本地跑 AI 的开发者（不想付 API 费、不想数据上云）
做端侧/嵌入式 AI 产品的团队（手机 App、IoT、车载系统）
需要处理多语言+多模态任务的独立开发者
对隐私敏感的企业和个人用户

我是吗：如果你有以下任何一个场景，你就是目标用户——

想在 Mac/PC 上跑一个"私人 ChatGPT"
做 AI 产品但被昂贵的 API 费用搞得头大
需要处理文档/图片/视频的自动化流程
想给 App 加个本地 AI 功能但不想依赖云端

什么场景会用到：

本地代码助手 → 用 9B 配合 OpenCode CLI 做轻量化编程
文档解析 → 9B 在 OmniDocBench 得分 87.7，碾压同级别对手
手机端视频理解 → 0.8B/2B 能在 iPhone 上离线分析 60 秒视频
隐私敏感场景 → 数据完全不出本地，安全可控

对我有用吗？

维度	收益	代价
时间	省掉 API 调用延迟，本地推理可达 80+ tok/s	首次部署需要 30-60 分钟折腾
金钱	完全免费，每年可省下 $240-600 的 API 订阅费	需要一台 16GB 显存的 GPU 或 32GB RAM 的 Mac
精力	一键 `ollama run qwen3.5:9b` 就能跑	想用好思考模式和工具调用需要踩不少坑

ROI 判断：如果你有一台 16GB 显存的显卡或者 M 系列芯片的 Mac，这基本上是"白给"的生产力——免费、本地、够用。但如果你期待它能完全替代 Claude Opus 4.6 或 GPT-5 做复杂推理，那还差得远。把它当作"本地执行层"搭配云端"规划层"使用，ROI 最高。

喜闻乐见吗？

爽点在哪：

9B 打 120B：这个数字本身就够刺激。用 1/13 的参数量在多个测试中实现超越，说明架构创新比单纯堆参数更重要。
手机能跑：0.8B 模型能在 iPhone 上流畅运行，想象一下离线版 AI 助手的潜力。
一个模型搞定一切：文本、图片、视频都是同一套权重，不需要各种插件拼装。

"哇"的瞬间：

"这是第一个在本地运行极快，且在处理简单任务时真正有用的模型。" — @Joseph_Richard7

"我已经在仅有 CPU 的环境下，通过 Ollama 在本地跑起了 Qwen 3.5-9B。在 32GB 内存上表现惊人地好。" — @olekslev69

真实吐槽：

"在 16GB 的 Mac mini 上跑 Qwen 3.5 9B，我对它说个 'hi' 居然花了 32 秒才回我。笑死，根本没法用。" — @DNormandin1234

"刚试了下 Qwen 3.5 9B，为了理解我的一句简单对话，它居然花了 7 段话的篇幅在那‘思考’……" — @thetechnocrat0

给独立开发者

技术栈

架构: 混合注意力机制 = Gated Delta Networks (线性注意力) + Full Attention，比例为 3:1
MoE: 稀疏混合专家系统，35B-A3B 版本仅激活 8.6% 的参数
多模态: 早期融合（Early Fusion）训练，DeepStack Vision Transformer，Conv3d 处理视频流
训练: 采用缩放强化学习 (Scaled RL)，而非传统的 SFT
推理框架: 支持 vLLM / SGLang / llama.cpp / Ollama / MLX

核心功能实现

Qwen3.5 的技术突破在于用 Gated DeltaNet 替换了 75% 的注意力层。传统 Transformer 的注意力机制是 O(n^2) 复杂度，DeltaNet 把它降到了 O(n)。具体做法是：每个线性注意力层把输入序列压缩到固定大小的状态，结合来自 Mamba2 的门控衰减机制和 Delta Rule 的隐状态更新。每 4 层保留一层全注意力来维持"联想记忆"能力。

结果：在 32K 上下文下解码速度比 Qwen3-Max 快 8.6 倍，256K 下快 19 倍。

开源情况

许可证: Apache 2.0，支持商用、修改和分发
模型权重: 已上线 HuggingFace + ModelScope，提供 Instruct 和 Base 版本
衍生生态: 全球已有 180,000+ 衍生模型，是第二名的两倍多
自己做难度: 极高。混合 DeltaNet + MoE 架构需要深厚的系统工程能力和海量训练数据，但你可以直接基于它进行微调（fine-tune）。

商业模式

模型免费: Apache 2.0 协议，随意使用
阿里的变现: 阿里云 API 调用收费 + 云基础设施租赁。云收入 Q2 同比增长 34%，AI 产品收入连续 8 个季度双位数增长
策略: 经典的"开源养生态 → 生态反哺云"打法，与 Meta 开源 Llama 的逻辑类似

巨头风险

说白了，Qwen 本身就是巨头产品。但对于用 Qwen 做产品的独立开发者来说：

好消息: Apache 2.0 意味着你不会被"断供"，即使阿里不做了，社区也能接手
坏消息: Google (Gemma)、Meta (Llama)、OpenAI (GPT-OSS) 都在同一赛道竞争，模型差异化的窗口期很短
建议: 不要把赌注押在单一模型上，架构上要做好模型切换的解耦能力

给产品经理

痛点分析

解决什么问题: 企业和开发者需要在端侧/本地运行强大的 AI，但大模型太重跑不动，小模型又太蠢没法用
痛点有多痛: 高频刚需。2026 年已有超过 20 亿部智能手机运行本地 SLM。75% 的企业 AI 部署选择本地模型以处理敏感数据。端侧 AI 是增速最快的细分市场 (CAGR 27.25%)

用户画像

画像	场景	选哪个
手机 App 开发者	在 iOS/Android 嵌入离线 AI	0.8B / 2B
全栈独立开发者	本地 AI 助手 / Code Copilot	9B
企业 IT	内部文档解析、合规审查	4B / 9B
AI 研究者	快速原型开发、微调实验	0.8B / 2B

功能拆解

功能	类型	说明
原生多模态 (文本+图+视频)	核心	非拼装模型，通过早期融合训练实现
262K 上下文窗口	核心	连 2B 模型都有，这在小模型中极其罕见
201 种语言支持	核心	248K 词表，覆盖范围极广
Multi-Token Prediction	核心	显著加速推理过程
像素级 UI 交互	锦上添花	能够导航桌面及手机 UI 界面
思考模式 (CoT)	锦上添花	默认关闭，可根据需求手动开启

竞品差异

维度	Qwen3.5-9B	GPT-OSS-120B	Gemma 3 27B	Llama 4
参数量	9B	120B	27B	各种尺寸
GPQA Diamond	81.7	71.5	42.4	-
MMMU-Pro	70.1	59.7	-	-
本地可跑性	普通笔记本即可	需要服务器集群	需要高端单 GPU	需要单 GPU
多模态能力	原生融合	文本为主	具备视觉能力	具备视觉能力
许可证	Apache 2.0	受限	受限	受限

可借鉴的点

"少即是多"的产品定位：不盲目喊"最大最强"，而是主打"更聪明、更省算力"，精准切中用户痛点
16 天发布 9 款模型的节奏：制造高频曝光，持续占据行业话题中心
分层模型矩阵：从 0.8B 到 397B 全线覆盖，每个尺寸都对应明确的部署场景
开源即营销：Apache 2.0 吸引全球开发者免费试用，最终转化为阿里云的长期收入

给科技博主

创始人/团队故事

核心人物: 林俊洋 (Junyang Lin)，Qwen 技术负责人
背景: 2019 年加入阿里巴巴，2023 年 4 月正式加入 Qwen 团队
戏剧性转折: Qwen3.5 Small 发布仅一天后（3月3日），林俊洋在 X 上宣布离职。同事评价其离职为"一个时代的结束"。这是这条新闻最好的流量"钩子"
团队规模: 100+ 开发者，据彭博社报道占据了阿里大楼的两层。在不到两年的时间里发布了 357 个模型

争议点/讨论角度

Benchmark 注水质疑？: Anthropic CEO Dario Amodei 曾公开质疑中国模型"针对基准测试过度优化，实际体验没那么强"
复杂任务"崩塌": 社区测试发现，在专家级编码任务上，其 ELO 分数从 1550 暴跌至 1194
核心人物出走: 技术 Leader 在重磅产品发布次日离职，究竟是"功成身退"还是"内部矛盾"？
9B 打 120B 的含金量: 到底是架构层面的降维打击，还是挑选了对自己有利的测试集？

热度数据

ProductHunt: 301 票
Elon Musk 点赞: 评价其具有 "令人印象深刻的智能密度"
HuggingFace: 累计下载量 3 亿+，衍生模型超过 180,000 个
媒体覆盖: VentureBeat、TechCrunch、CNBC 等主流媒体均进行了深度报道

内容建议

深度角度: "技术 Leader 发完产品就走人：Qwen3.5 发布背后的阿里 AI 权力暗战"
技术科普: "9B 干翻 120B 的秘密武器：Delta Network 到底是什么黑科技？"
热点结合: 马斯克点赞 + 中美 AI 算力竞赛 + 为什么端侧 AI 是下一个财富风口

给早期采用者

定价分析

层级	价格	包含功能	够用吗？
开源(本地)	完全免费	所有核心功能	够用，但对硬件有一定要求
阿里云 API	按量计费	云端高并发调用	方便但存在网络延迟
第三方托管	~$0.05-0.30/M tokens	托管推理服务	适合没有高端 GPU 的用户

上手指南

上手时间: 10 分钟（使用 Ollama）
学习曲线: 极低
步骤：
1. 安装 Ollama: curl -fsSL https://ollama.com/install.sh | sh
2. 拉取模型: ollama run qwen3.5:9b（自动下载约 6.6GB 数据）
3. 开始聊天 — 流程极其顺滑
4. （可选）启用思考模式: 使用 llama-server 并配置 --chat-template-kwargs '{"enable_thinking":true}'

坑和吐槽

Ollama 工具调用 Bug: 格式映射有误，Ollama 发送的是 Hermes JSON，但模型训练使用的是 Qwen3-Coder XML 格式
思考模式会"想太多": 简单问题也可能长篇大论地分析，建议日常使用时关闭思考模式
低配 Mac 跑不动: 16GB 的 Mac Mini 纯 CPU 推理需要 32 秒才出第一个字。必须有 GPU 或 Apple Silicon 的 Metal 加速
MLX 框架缓存崩溃: Apple Silicon 用户需留意 mlx-lm 的已知 bug

安全和隐私

数据存储: 完全本地化，数据不上传云端
许可证: Apache 2.0，目前最宽松的开源许可之一
内容审查: 作为中国模型，在某些特定敏感主题上可能存在安全过滤
身份认知: 有报告称模型曾偶尔自称"由 Google 制造"，但在思考链中会自我纠正

替代方案

替代品	优势	劣势
Gemma 3 27B	Google 生态、支持 140+ 语言	推理能力较弱 (GPQA 差距明显)
Llama 4 Scout	Meta 生态、社区支持极其强大	多模态能力不如 Qwen 原生融合
Phi-4 (Microsoft)	小巧精悍、逻辑推理强	生态规模较小、许可限制较多
Mistral 24B	欧洲血统、通用能力非常稳定	不支持原生多模态

给投资人

市场分析

SLM 赛道规模: 2023 年 $77.6 亿 → 2030 年预计达 $207 亿 (CAGR 15.1%)
端侧 AI 部署增速: 27.25% CAGR，是目前增长最快的 AI 部署路径
大盘趋势: 全球 LLM 市场 2026 年约 $100 亿，2035 年预计达 $1,799 亿
驱动因素: 隐私法规收紧 + 端侧算力爆发 + API 成本压力 + 离线使用场景需求

竞争格局

层级	玩家	定位
头部(闭源)	OpenAI, Anthropic, Google	探索前沿超大模型
头部(开源)	阿里 Qwen, Meta Llama	构建全球开源生态霸权
腰部玩家	Mistral, 智谱 GLM	寻找差异化市场定位
端侧专精	Google Gemma, Microsoft Phi	极致的小模型优化
新进入者	Qwen3.5 Small	精准填补 Qwen 在端侧的空白

Timing 分析

为什么是现在: 2026 年是 SLM 的拐点——全球 20 亿+ 手机具备跑本地模型的能力。Gated DeltaNet 等新架构让"小模型战胜大模型"从幻想变为现实
技术成熟度: 架构创新（DeltaNet + MoE）已在生产环境证明可行，不再是实验室玩具
市场准备度: Ollama 月活破千万，本地 AI 的基础设施和用户习惯已经成熟

团队背景

母公司: 阿里巴巴集团 (NYSE: BABA)
AI 投入: 3 年累计投入 $532 亿，单季度 CapEx 达 386 亿元人民币
团队规模: 100+ 核心成员，两年高频发布 357 个模型
核心成果: 打造了全球最大的开源模型家族，累计下载量破 3 亿
风险信号: 技术负责人林俊洋于 3 月 3 日突然离职

融资/财务

阿里云 Q2 收入: $55.9 亿 (同比增长 34%)
年化 Run Rate: 超过 $220 亿
AI 产品收入: 已连续 8 个季度保持双位数增长
项目属性: Qwen 是阿里云的战略级武器，目前不接受独立融资

结论

一句话判断：Qwen3.5 Small 是 2026 年 3 月最重要的端侧 AI 发布 — 它有力证明了"9B 参数能打 120B"绝非噱头，而是架构创新的胜利。对于独立开发者而言，这是"免费午餐"的最新、最强版本。

用户类型	建议
开发者	必须尝试。`ollama run qwen3.5:9b`，10 分钟上手。但不要指望它能完全替代顶级闭源模型处理极端复杂任务
产品经理	重点关注。"小参数 + 原生多模态 + 极致端侧优化"的组合定义了 SLM 新标杆，有很多值得借鉴的产品逻辑
博主	绝佳素材。"马斯克点赞 + 技术大牛离职 + 9B 逆袭 120B"，话题性拉满
早期采用者	建议入坑。完全免费，6.6GB 即可运行，虽然工具调用还有小 Bug，但瑕不掩瑜
投资人	持续跟踪。SLM + 端侧 AI 是确定性极强的风口，关注阿里巴巴整体 AI 战略的协同效应

资源链接

资源	链接
GitHub 仓库	https://github.com/QwenLM/Qwen3.5
HuggingFace (9B)	https://huggingface.co/Qwen/Qwen3.5-9B
Ollama 模型库	https://ollama.com/library/qwen3.5:9b
官方技术博客	https://qwenlm.github.io/blog/qwen3.5/
ProductHunt 页面	https://www.producthunt.com/products/qwen3
VentureBeat 深度报道	https://venturebeat.com/technology/alibabas-small-open-source-qwen3-5-9b-beats-openais-gpt-oss-120b-and-can-run
TechCrunch (关于林俊洋离职)	https://techcrunch.com/2026/03/03/alibabas-qwen-tech-lead-steps-down-after-major-ai-push/

2026-03-04 | Trend-Tracker v7.3

Qwen3.5 Small