返回探索

Qwen3.5 Small

LLMs

0.8B-9B 原生多模态模型:更强智能,更低算力消耗

💡 Qwen3 是由阿里巴巴通义千问团队开发的超大规模语言模型系列。 - QwenLM/Qwen3

"就像是把爱因斯坦的大脑压缩进了一颗胶囊,虽然体积只有指甲盖大,但思考速度和深度却能让一整间机房的服务器感到汗颜。"

30秒快速判断
这App干嘛的:阿里通义千问发布的 4 个端侧小模型(0.8B-9B),其中 9B 版本性能在多项测试中超越了 120B 的超大模型。
值不值得关注:必须关注。它代表了行业从“堆参数”向“提密度”的战略转向,Apache 2.0 协议开源,智能密度极高。
8/10

热度

9/10

实用

301

投票

产品画像
完整分析报告

Qwen3.5 Small:9B 参数干翻 120B,端侧 AI 的"iPhone 时刻"来了

2026-03-04 | ProductHunt (301票) | GitHub | HuggingFace


30秒快速判断

这东西干嘛的:阿里通义千问团队发布的 4 个"小"模型(0.8B/2B/4B/9B),能跑在手机和笔记本上,原生支持文本+图片+视频,9B 模型在多个基准测试(benchmark)上超过了 OpenAI GPT-OSS-120B。

值不值得关注:必须关注。这不是"又一个小模型"——它代表了行业风向的根本转变:从"堆参数"到"提密度"。Elon Musk 都评价说它拥有 "令人印象深刻的智能密度"。Apache 2.0 开源,零成本上手。


与我有关三问

与我有关吗?

目标用户是谁

  • 想在本地跑 AI 的开发者(不想付 API 费、不想数据上云)
  • 做端侧/嵌入式 AI 产品的团队(手机 App、IoT、车载系统)
  • 需要处理多语言+多模态任务的独立开发者
  • 对隐私敏感的企业和个人用户

我是吗:如果你有以下任何一个场景,你就是目标用户——

  • 想在 Mac/PC 上跑一个"私人 ChatGPT"
  • 做 AI 产品但被昂贵的 API 费用搞得头大
  • 需要处理文档/图片/视频的自动化流程
  • 想给 App 加个本地 AI 功能但不想依赖云端

什么场景会用到

  • 本地代码助手 → 用 9B 配合 OpenCode CLI 做轻量化编程
  • 文档解析 → 9B 在 OmniDocBench 得分 87.7,碾压同级别对手
  • 手机端视频理解 → 0.8B/2B 能在 iPhone 上离线分析 60 秒视频
  • 隐私敏感场景 → 数据完全不出本地,安全可控

对我有用吗?

维度收益代价
时间省掉 API 调用延迟,本地推理可达 80+ tok/s首次部署需要 30-60 分钟折腾
金钱完全免费,每年可省下 $240-600 的 API 订阅费需要一台 16GB 显存的 GPU 或 32GB RAM 的 Mac
精力一键 ollama run qwen3.5:9b 就能跑想用好思考模式和工具调用需要踩不少坑

ROI 判断:如果你有一台 16GB 显存的显卡或者 M 系列芯片的 Mac,这基本上是"白给"的生产力——免费、本地、够用。但如果你期待它能完全替代 Claude Opus 4.6 或 GPT-5 做复杂推理,那还差得远。把它当作"本地执行层"搭配云端"规划层"使用,ROI 最高。

喜闻乐见吗?

爽点在哪

  • 9B 打 120B:这个数字本身就够刺激。用 1/13 的参数量在多个测试中实现超越,说明架构创新比单纯堆参数更重要。
  • 手机能跑:0.8B 模型能在 iPhone 上流畅运行,想象一下离线版 AI 助手的潜力。
  • 一个模型搞定一切:文本、图片、视频都是同一套权重,不需要各种插件拼装。

"哇"的瞬间

"这是第一个在本地运行极快,且在处理简单任务时真正有用的模型。" — @Joseph_Richard7

"我已经在仅有 CPU 的环境下,通过 Ollama 在本地跑起了 Qwen 3.5-9B。在 32GB 内存上表现惊人地好。" — @olekslev69

真实吐槽

"在 16GB 的 Mac mini 上跑 Qwen 3.5 9B,我对它说个 'hi' 居然花了 32 秒才回我。笑死,根本没法用。" — @DNormandin1234

"刚试了下 Qwen 3.5 9B,为了理解我的一句简单对话,它居然花了 7 段话的篇幅在那‘思考’……" — @thetechnocrat0


给独立开发者

技术栈

  • 架构: 混合注意力机制 = Gated Delta Networks (线性注意力) + Full Attention,比例为 3:1
  • MoE: 稀疏混合专家系统,35B-A3B 版本仅激活 8.6% 的参数
  • 多模态: 早期融合(Early Fusion)训练,DeepStack Vision Transformer,Conv3d 处理视频流
  • 训练: 采用缩放强化学习 (Scaled RL),而非传统的 SFT
  • 推理框架: 支持 vLLM / SGLang / llama.cpp / Ollama / MLX

核心功能实现

Qwen3.5 的技术突破在于用 Gated DeltaNet 替换了 75% 的注意力层。传统 Transformer 的注意力机制是 O(n^2) 复杂度,DeltaNet 把它降到了 O(n)。具体做法是:每个线性注意力层把输入序列压缩到固定大小的状态,结合来自 Mamba2 的门控衰减机制和 Delta Rule 的隐状态更新。每 4 层保留一层全注意力来维持"联想记忆"能力。

结果:在 32K 上下文下解码速度比 Qwen3-Max 快 8.6 倍,256K 下快 19 倍。

开源情况

  • 许可证: Apache 2.0,支持商用、修改和分发
  • 模型权重: 已上线 HuggingFace + ModelScope,提供 Instruct 和 Base 版本
  • 衍生生态: 全球已有 180,000+ 衍生模型,是第二名的两倍多
  • 自己做难度: 极高。混合 DeltaNet + MoE 架构需要深厚的系统工程能力和海量训练数据,但你可以直接基于它进行微调(fine-tune)。

商业模式

  • 模型免费: Apache 2.0 协议,随意使用
  • 阿里的变现: 阿里云 API 调用收费 + 云基础设施租赁。云收入 Q2 同比增长 34%,AI 产品收入连续 8 个季度双位数增长
  • 策略: 经典的"开源养生态 → 生态反哺云"打法,与 Meta 开源 Llama 的逻辑类似

巨头风险

说白了,Qwen 本身就是巨头产品。但对于用 Qwen 做产品的独立开发者来说:

  • 好消息: Apache 2.0 意味着你不会被"断供",即使阿里不做了,社区也能接手
  • 坏消息: Google (Gemma)、Meta (Llama)、OpenAI (GPT-OSS) 都在同一赛道竞争,模型差异化的窗口期很短
  • 建议: 不要把赌注押在单一模型上,架构上要做好模型切换的解耦能力

给产品经理

痛点分析

  • 解决什么问题: 企业和开发者需要在端侧/本地运行强大的 AI,但大模型太重跑不动,小模型又太蠢没法用
  • 痛点有多痛: 高频刚需。2026 年已有超过 20 亿部智能手机运行本地 SLM。75% 的企业 AI 部署选择本地模型以处理敏感数据。端侧 AI 是增速最快的细分市场 (CAGR 27.25%)

用户画像

画像场景选哪个
手机 App 开发者在 iOS/Android 嵌入离线 AI0.8B / 2B
全栈独立开发者本地 AI 助手 / Code Copilot9B
企业 IT内部文档解析、合规审查4B / 9B
AI 研究者快速原型开发、微调实验0.8B / 2B

功能拆解

功能类型说明
原生多模态 (文本+图+视频)核心非拼装模型,通过早期融合训练实现
262K 上下文窗口核心连 2B 模型都有,这在小模型中极其罕见
201 种语言支持核心248K 词表,覆盖范围极广
Multi-Token Prediction核心显著加速推理过程
像素级 UI 交互锦上添花能够导航桌面及手机 UI 界面
思考模式 (CoT)锦上添花默认关闭,可根据需求手动开启

竞品差异

维度Qwen3.5-9BGPT-OSS-120BGemma 3 27BLlama 4
参数量9B120B27B各种尺寸
GPQA Diamond81.771.542.4-
MMMU-Pro70.159.7--
本地可跑性普通笔记本即可需要服务器集群需要高端单 GPU需要单 GPU
多模态能力原生融合文本为主具备视觉能力具备视觉能力
许可证Apache 2.0受限受限受限

可借鉴的点

  1. "少即是多"的产品定位:不盲目喊"最大最强",而是主打"更聪明、更省算力",精准切中用户痛点
  2. 16 天发布 9 款模型的节奏:制造高频曝光,持续占据行业话题中心
  3. 分层模型矩阵:从 0.8B 到 397B 全线覆盖,每个尺寸都对应明确的部署场景
  4. 开源即营销:Apache 2.0 吸引全球开发者免费试用,最终转化为阿里云的长期收入

给科技博主

创始人/团队故事

  • 核心人物: 林俊洋 (Junyang Lin),Qwen 技术负责人
  • 背景: 2019 年加入阿里巴巴,2023 年 4 月正式加入 Qwen 团队
  • 戏剧性转折: Qwen3.5 Small 发布仅一天后(3月3日),林俊洋在 X 上宣布离职。同事评价其离职为"一个时代的结束"。这是这条新闻最好的流量"钩子"
  • 团队规模: 100+ 开发者,据彭博社报道占据了阿里大楼的两层。在不到两年的时间里发布了 357 个模型

争议点/讨论角度

  1. Benchmark 注水质疑?: Anthropic CEO Dario Amodei 曾公开质疑中国模型"针对基准测试过度优化,实际体验没那么强"
  2. 复杂任务"崩塌": 社区测试发现,在专家级编码任务上,其 ELO 分数从 1550 暴跌至 1194
  3. 核心人物出走: 技术 Leader 在重磅产品发布次日离职,究竟是"功成身退"还是"内部矛盾"?
  4. 9B 打 120B 的含金量: 到底是架构层面的降维打击,还是挑选了对自己有利的测试集?

热度数据

  • ProductHunt: 301 票
  • Elon Musk 点赞: 评价其具有 "令人印象深刻的智能密度"
  • HuggingFace: 累计下载量 3 亿+,衍生模型超过 180,000 个
  • 媒体覆盖: VentureBeat、TechCrunch、CNBC 等主流媒体均进行了深度报道

内容建议

  • 深度角度: "技术 Leader 发完产品就走人:Qwen3.5 发布背后的阿里 AI 权力暗战"
  • 技术科普: "9B 干翻 120B 的秘密武器:Delta Network 到底是什么黑科技?"
  • 热点结合: 马斯克点赞 + 中美 AI 算力竞赛 + 为什么端侧 AI 是下一个财富风口

给早期采用者

定价分析

层级价格包含功能够用吗?
开源(本地)完全免费所有核心功能够用,但对硬件有一定要求
阿里云 API按量计费云端高并发调用方便但存在网络延迟
第三方托管~$0.05-0.30/M tokens托管推理服务适合没有高端 GPU 的用户

上手指南

  • 上手时间: 10 分钟(使用 Ollama)
  • 学习曲线: 极低
  • 步骤
    1. 安装 Ollama: curl -fsSL https://ollama.com/install.sh | sh
    2. 拉取模型: ollama run qwen3.5:9b(自动下载约 6.6GB 数据)
    3. 开始聊天 — 流程极其顺滑
    4. (可选)启用思考模式: 使用 llama-server 并配置 --chat-template-kwargs '{"enable_thinking":true}'

坑和吐槽

  1. Ollama 工具调用 Bug: 格式映射有误,Ollama 发送的是 Hermes JSON,但模型训练使用的是 Qwen3-Coder XML 格式
  2. 思考模式会"想太多": 简单问题也可能长篇大论地分析,建议日常使用时关闭思考模式
  3. 低配 Mac 跑不动: 16GB 的 Mac Mini 纯 CPU 推理需要 32 秒才出第一个字。必须有 GPU 或 Apple Silicon 的 Metal 加速
  4. MLX 框架缓存崩溃: Apple Silicon 用户需留意 mlx-lm 的已知 bug

安全和隐私

  • 数据存储: 完全本地化,数据不上传云端
  • 许可证: Apache 2.0,目前最宽松的开源许可之一
  • 内容审查: 作为中国模型,在某些特定敏感主题上可能存在安全过滤
  • 身份认知: 有报告称模型曾偶尔自称"由 Google 制造",但在思考链中会自我纠正

替代方案

替代品优势劣势
Gemma 3 27BGoogle 生态、支持 140+ 语言推理能力较弱 (GPQA 差距明显)
Llama 4 ScoutMeta 生态、社区支持极其强大多模态能力不如 Qwen 原生融合
Phi-4 (Microsoft)小巧精悍、逻辑推理强生态规模较小、许可限制较多
Mistral 24B欧洲血统、通用能力非常稳定不支持原生多模态

给投资人

市场分析

  • SLM 赛道规模: 2023 年 $77.6 亿 → 2030 年预计达 $207 亿 (CAGR 15.1%)
  • 端侧 AI 部署增速: 27.25% CAGR,是目前增长最快的 AI 部署路径
  • 大盘趋势: 全球 LLM 市场 2026 年约 $100 亿,2035 年预计达 $1,799 亿
  • 驱动因素: 隐私法规收紧 + 端侧算力爆发 + API 成本压力 + 离线使用场景需求

竞争格局

层级玩家定位
头部(闭源)OpenAI, Anthropic, Google探索前沿超大模型
头部(开源)阿里 Qwen, Meta Llama构建全球开源生态霸权
腰部玩家Mistral, 智谱 GLM寻找差异化市场定位
端侧专精Google Gemma, Microsoft Phi极致的小模型优化
新进入者Qwen3.5 Small精准填补 Qwen 在端侧的空白

Timing 分析

  • 为什么是现在: 2026 年是 SLM 的拐点——全球 20 亿+ 手机具备跑本地模型的能力。Gated DeltaNet 等新架构让"小模型战胜大模型"从幻想变为现实
  • 技术成熟度: 架构创新(DeltaNet + MoE)已在生产环境证明可行,不再是实验室玩具
  • 市场准备度: Ollama 月活破千万,本地 AI 的基础设施和用户习惯已经成熟

团队背景

  • 母公司: 阿里巴巴集团 (NYSE: BABA)
  • AI 投入: 3 年累计投入 $532 亿,单季度 CapEx 达 386 亿元人民币
  • 团队规模: 100+ 核心成员,两年高频发布 357 个模型
  • 核心成果: 打造了全球最大的开源模型家族,累计下载量破 3 亿
  • 风险信号: 技术负责人林俊洋于 3 月 3 日突然离职

融资/财务

  • 阿里云 Q2 收入: $55.9 亿 (同比增长 34%)
  • 年化 Run Rate: 超过 $220 亿
  • AI 产品收入: 已连续 8 个季度保持双位数增长
  • 项目属性: Qwen 是阿里云的战略级武器,目前不接受独立融资

结论

一句话判断:Qwen3.5 Small 是 2026 年 3 月最重要的端侧 AI 发布 — 它有力证明了"9B 参数能打 120B"绝非噱头,而是架构创新的胜利。对于独立开发者而言,这是"免费午餐"的最新、最强版本。

用户类型建议
开发者必须尝试。ollama run qwen3.5:9b,10 分钟上手。但不要指望它能完全替代顶级闭源模型处理极端复杂任务
产品经理重点关注。"小参数 + 原生多模态 + 极致端侧优化"的组合定义了 SLM 新标杆,有很多值得借鉴的产品逻辑
博主绝佳素材。"马斯克点赞 + 技术大牛离职 + 9B 逆袭 120B",话题性拉满
早期采用者建议入坑。完全免费,6.6GB 即可运行,虽然工具调用还有小 Bug,但瑕不掩瑜
投资人持续跟踪。SLM + 端侧 AI 是确定性极强的风口,关注阿里巴巴整体 AI 战略的协同效应

资源链接

资源链接
GitHub 仓库https://github.com/QwenLM/Qwen3.5
HuggingFace (9B)https://huggingface.co/Qwen/Qwen3.5-9B
Ollama 模型库https://ollama.com/library/qwen3.5:9b
官方技术博客https://qwenlm.github.io/blog/qwen3.5/
ProductHunt 页面https://www.producthunt.com/products/qwen3
VentureBeat 深度报道https://venturebeat.com/technology/alibabas-small-open-source-qwen3-5-9b-beats-openais-gpt-oss-120b-and-can-run
TechCrunch (关于林俊洋离职)https://techcrunch.com/2026/03/03/alibabas-qwen-tech-lead-steps-down-after-major-ai-push/

2026-03-04 | Trend-Tracker v7.3

一句话判断

Qwen3.5 Small 是 2026 年端侧 AI 领域的里程碑式产品,通过架构创新实现了性能飞跃。它是开发者手中免费且强大的本地生产力工具,定义了小语言模型(SLM)的新标杆。

常见问题

关于 Qwen3.5 Small 的常见问题

阿里通义千问发布的 4 个端侧小模型(0.8B-9B),其中 9B 版本性能在多项测试中超越了 120B 的超大模型。

Qwen3.5 Small 的主要功能包括:原生多模态支持(文/图/视)、262K 超长上下文窗口、支持 201 种语言、Multi-Token Prediction 推理加速。

开源本地版完全免费;阿里云 API 采用按量计费模式;第三方托管服务约 $0.05-0.30/M tokens。

热衷本地运行 AI 的开发者、端侧/嵌入式 AI 开发团队、独立开发者以及对隐私极度敏感的企业用户。

Qwen3.5 Small 的主要竞品包括:GPT-OSS-120B, Gemma 3 27B, Llama 4, Phi-4, Mistral 24B。。

数据来源: ProductHunt2026年3月4日
最后更新: