Qwen3.5:开源大模型的"性价比屠夫"来了
2026-02-17 | ProductHunt | GitHub | PH 151 票
30 秒快速判断
这东西干嘛的:阿里云开发的开源大模型,虽然有 397B 参数,但每次推理只激活 17B(就像一个有 512 个专家的团队,每个问题只派 11 个人上),能看图、看视频还能直接操作电脑桌面。采用 Apache 2.0 协议,支持免费商用。
值不值得关注:非常值得。如果你正在用 GPT-4 或 Claude 做开发,Qwen3.5 的 API 价格只有它们的 1/5 到 1/37。如果你有 GPU 资源,直接下载跑,一分钱不花。这不是“又一个国产模型”,而是在部分跑分上真的打赢了 GPT-5.2 和 Claude Opus 4.5 的强力竞争者。
与我有关三问
与我有关吗?
目标用户是谁:
- AI 应用开发者(需要便宜又好用的模型 API)
- 企业 IT 团队(想私有化部署大模型,确保数据不出门)
- 多语言场景需求方(支持 201 种语言,中文支持天然强大)
- Agent/自动化开发者(原生支持工具调用、桌面操控)
我是吗:如果你满足以下任何一条,你就是目标用户:
- 你在用 OpenAI/Anthropic 的 API,但觉得每月账单太贵
- 你想搞 AI Agent,让模型自己操作电脑完成任务
- 你做出海产品,需要中英文能力都极强的模型
- 你有 GPU 服务器,想跑一个不受限制的开源模型
什么场景会用到:
- 代码生成和重构 -> 用这个(LiveCodeBench 83.6 分,人类竞赛水平)
- 长文档分析和总结 -> 用这个(100 万 token 上下文窗口)
- 帮你操作桌面软件 -> 用这个(原生视觉 Agent 能力)
- 需要极致稳定的生产环境 debug -> 建议考虑 Claude(Qwen 的 debug 稳定性仍有提升空间)
对我有用吗?
| 维度 | 收益 | 代价 |
|---|---|---|
| 时间 | 多模态+Agent 一个模型搞定,无需拼接多个 API | 学习新的 API 格式(虽兼容 OpenAI,但仍需微调) |
| 金钱 | API 价格 $0.40/百万 token,比 GPT-4.1 便宜 5 倍;自部署免费 | 自部署需要 3-4 块 80GB GPU(约 $15K 硬件投入) |
| 精力 | 开源+Apache 2.0,随意魔改不用看人脸色 | 模型命名较乱(3.5/Plus/Max),需花时间搞清选型 |
ROI 判断:如果你每月 API 开销超过 $100,换成 Qwen3.5-Plus 能直接省下 60-80% 的成本。如果你有闲置 GPU 服务器,自部署的 ROI 接近无穷大。学习成本极低,因为它完全兼容 OpenAI API 格式,改个 base_url 就能用。
喜闻乐见吗?
爽点在哪:
- 价格屠夫:$0.40 vs Claude 的 $15,干同样的活儿只需花 1/37 的钱
- 100 万 token 上下文:整个代码库直接扔进去,一次性问完所有问题
- 视觉 Agent:给它一张桌面截图,它能规划操作步骤并执行,这是 Claude Computer Use 的完美开源平替
- 开源不设限:Apache 2.0 协议,想怎么改就怎么改,甚至可以直接集成到商业产品里卖
用户真实评价:
"开放权重的旗舰模型,在搜索、综合能力、减少幻觉和处理长上下文方面特别强" —— Latent Space
"如果你在开发真实系统,你只关心三件事:能力、迭代成本、模型多久让你抓狂一次" —— AnalyticsVidhya 实测
"写新代码很厉害,但在 debug 和修改已有代码时容易翻车" —— Reddit 开发者社区
给独立开发者
技术栈
这是 Qwen3.5 架构上最硬核的部分:
- 核心架构:稀疏 MoE(Mixture-of-Experts),拥有 512 个专家,每个 token 只激活 10 个路由专家 + 1 个共享专家
- 注意力层:采用 Gated Delta Networks(线性注意力)替代标准 attention,75% 的层用线性注意力,仅 1/4 用全注意力。60 层堆叠规则:3x(GDN->MoE) -> 1x(GatedAttention->MoE)
- 多模态:原生 early fusion(早期融合),不是后期拼凑 adapter。使用 DeepStack Vision Transformer + Conv3d 进行视频理解
- 推理加速:内置 Multi-Token Prediction (MTP),支持开箱即用的投机解码
- 词表:250K 词汇量,比前代的 152K 大幅扩充,中文/数学/代码 token 压缩更紧凑,节省 15-25% 的 token 开销
简单来说,它的核心创新是“用线性注意力 + 超大专家池”来换取推理效率。397B 参数听着吓人,但实际每 token 只跑 17B,所以推理速度比同级别稠密模型快 8-19 倍。
核心功能实现
视觉 Agent 工作流:
- 接收桌面或手机截图
- 识别 UI 元素(按钮、输入框、菜单等)
- 规划多步骤操作流程
- 生成可执行的操作指令
- 内置工具调用:网页搜索、代码执行、外部 API 接入
这套方案与 Anthropic 的 Computer Use 非常相似,但它是开源的。你可以使用 Qwen-Agent 框架 快速搭建,支持 Function Calling、MCP、Code Interpreter 和 RAG。
开源情况
- 开源吗:是,Apache 2.0 协议,支持商用
- GitHub:QwenLM/Qwen3.5
- Hugging Face:Qwen/Qwen3.5-397B-A17B
- 生态规模:衍生模型超 17 万个,累计下载量突破 6 亿次
- 类似开源项目:DeepSeek V3.2(MIT 协议)、Llama 4 Maverick(Llama 协议)
- 自己做难度:极高。需要万卡集群 + 数万亿 token 预训练数据 + 百万级 Agent 环境进行强化学习。这已经不是个人开发者能触碰的领域了。
商业模式
- 变现方式:开源引流 + 云服务 API 收费(通过阿里云 Model Studio)
- 定价:Qwen3.5-Plus API 约 $0.40/百万输入 token
- 对比:GPT-4.1 约 $2.00,Claude Opus 约 $15.00
- 企业采用:一年内已吸引超过 9 万家企业客户
- 本质策略:用开源模型带动阿里云整体业务增长,模型本身更多是作为生态入口
巨头风险
Qwen3.5 本身就是巨头(阿里巴巴)的产品。真正的问题是:你基于 Qwen3.5 做的应用会不会被阿里自己做掉?
答案取决于你的切入点。如果你做通用型 AI 助手,会被阿里的通义千问直接碾压。但如果你深耕垂直场景(如法律、医疗、金融),阿里大概率不会深入每个细分领域。开源协议保证了你的自由度——你可以 fine-tune 出专属模型,这是使用闭源 API 无法实现的深度定制。
给产品经理
痛点分析
- 解决什么问题:企业想用大模型做自动化,但面临三个痛点——API 太贵、数据隐私不敢上云、多模态能力集成太复杂
- 痛点有多痛:高频且刚需。2026 年预计 80% 的企业将部署 GenAI,但很多都被成本和安全卡住了脖子
用户画像
- AI 应用开发团队:需要便宜、稳定且支持频繁调用的模型 API
- 企业 IT 部门:敏感数据严禁上云,必须进行私有化部署
- 出海团队:需要覆盖全球 201 种语言的多语言支持能力
- 自动化工程师:希望让 AI 直接操作现有软件,完成复杂的工作流
功能拆解
| 功能 | 类型 | 说明 |
|---|---|---|
| 文本推理(编程/数学/逻辑) | 核心 | LiveCodeBench 83.6,AIME 91.3,处于第一梯队 |
| 原生多模态(图片/视频理解) | 核心 | 从预训练阶段深度融合,非后期拼接,理解更精准 |
| 视觉 Agent(桌面/手机操控) | 核心 | Computer Use 的开源平替,支持自动化办公 |
| 100 万 token 上下文 | 核心 | Plus 版默认支持,适合处理长文档和代码库 |
| 201 种语言支持 | 锦上添花 | 比前代增加 69%,是出海产品的利器 |
| Thinking/Non-Thinking 双模式 | 锦上添花 | 复杂问题深度思考,简单问题秒回,兼顾效率与深度 |
| 工具调用/MCP/RAG | 核心 | Qwen-Agent 框架提供完整支持 |
竞品差异
| 维度 | Qwen3.5 | GPT-5.2 | Claude Opus 4.5 | Gemini 3 Flash |
|---|---|---|---|---|
| 核心差异 | 开源+MoE 极致效率 | 闭源全能王 | 最高的可靠性与逻辑 | 价格接近,生态互补 |
| 价格/百万 token | $0.40 | 未公开(昂贵) | $15.00 | $0.40 |
| 是否开源 | Apache 2.0 | 否 | 否 | 否 |
| 多模态 | 原生融合 | 原生融合 | 原生融合 | 原生融合 |
| Agent 能力 | 视觉 Agent 强 | 极强 | Computer Use 领先 | 表现一般 |
| 上下文窗口 | 256K/1M | 128K | 200K | 1M |
| 中文能力 | 极强 | 强 | 强 | 强 |
可借鉴的点
- 开源+商业双轨制:用 Apache 2.0 开源吸引开发者(6 亿次下载),再通过 Plus 版 API 实现商业变现。这个策略比纯闭源或纯开源都更具生命力。
- MoE 架构的极致优化:397B 参数只激活 17B,把“大而全”和“快而省”通过架构设计统一了。做产品也要思考:功能多不代表都要同时加载,按需调用才是王道。
- 原生多模态设计:不做事后拼接,从底层就把视觉和语言融合。对应到产品设计:核心能力要从架构层面预留,而不是后期打补丁。
给科技博主
创始人故事
Qwen 背后的关键人物是周靖人(Jingren Zhou),现任阿里云 CTO。
他的履历极其硬核:哥伦比亚大学 CS 博士,在微软工作了 11 年(曾任 Bing 基础设施架构师),2015 年加入阿里巴巴。2021 年,他带队将 M6 模型扩展到 10 万亿参数——这在当时是全球最大的 AI 模型,且仅用 512 块 GPU 训练了 10 天。
这一战绩奠定了 Qwen 团队的技术底蕴。到 2025 年 12 月,周靖人被提拔为阿里巴巴集团合伙人,这意味着他进入了阿里的核心决策层。更值得关注的是,已退休多年的马云开始定期听取周靖人的工作汇报——这足以说明 Qwen 已成为阿里集团级的战略重器。
另一位值得关注的是林俊阳(Junyang Lin),Qwen 核心研发成员,他在 X 平台非常活跃,经常亲自下场解释模型命名逻辑和技术细节,是团队的技术代言人。
争议点/讨论角度
- 命名混乱的尴尬:从 Qwen3 到 Qwen3-Next 再到 Qwen3.5,社区被搞得一头雾水。林俊阳自己也承认叫“Qwen3.5-Preview”挺尴尬,会让人觉得“加了 0.5 却减了 0.4?”
- Benchmark 是否自卖自夸? CNBC 等媒体曾指出“无法独立验证”阿里宣称超越 GPT-5.2 的说法。这是 AI 圈的老问题了——每家发模型都说自己最强,但实际体感往往有差距。
- 中美 AI 竞赛新篇章:Qwen3.5 发布同一周,字节跳动发布了豆包 2.0,DeepSeek 也有新动作。中国 AI 不再只是“追赶”,而是在某些细分方向上开始“领跑”开源界。
- 开源的“阳谋”:阿里把顶级模型以 Apache 2.0 协议开源,表面上是贡献社区,实际上是用免费模型深度绑定阿里云生态。这招很聪明,也非常值得讨论。
热度数据
- ProductHunt: 151 票
- 媒体覆盖:CNBC、VentureBeat、ComputerWorld 等主流科技媒体集中报道
- 硬件生态:AMD Day 0 GPU 支持,NVIDIA 官方技术博客专门撰文推荐
- 开源生态:累计下载量超 6 亿次,衍生模型超 17 万个
内容建议
- 适合写的角度:"中国开源 AI 正在重新定义全球价格战" —— 聚焦 $0.40 vs $15 的巨大价格差
- 蹭热点机会:Anthropic 同期发布了 Computer Use 升级,可以做一期“开源 vs 闭源视觉 Agent 实测对比”
- 深度科普角度:Gated Delta Networks 到底是什么?线性注意力如何让 100 万 token 上下文变得真正可用且不卡顿
给早期采用者
定价分析
| 层级 | 价格 | 包含功能 | 够用吗? |
|---|---|---|---|
| 开源自部署 | 免费 | 256K 上下文,完整 397B 模型 | 只要有 GPU 就够用,功能无阉割 |
| Qwen3.5-Plus API | 约 $0.40/百万输入 token | 100 万上下文,工具调用,多模态 | 绝大多数商业场景的首选 |
| Qwen3-Max-Thinking | $1.20/百万输入 token | 推理增强,深度思考模式 | 适合复杂逻辑推理场景 |
| 第三方平台 (Groq/OpenRouter) | $0.29-0.50/百万 token | Qwen3-32B 等小模型 | 日常轻量级开发足够 |
免费版够用吗? 如果你有足够的 GPU 资源(至少 3x80GB),开源版功能完全不缩水。如果没有,Plus API 的价格也便宜到几乎可以忽略不计。每百万 token 仅 $0.40,换算下来处理一整本书大约只需 $0.08。
上手指南
- 上手时间:5 分钟(API 接入)/ 30 分钟(本地部署)
- 学习曲线:极低(完全兼容 OpenAI API 格式)
最快开始方式(仅需 3 步):
- 注册 阿里云 Model Studio,获取 API Key
- 将你代码中的
base_url从api.openai.com改为阿里云的 endpoint - 将
model参数改为qwen3.5-plus,即可完成接入
本地运行(如果你有 GPU):
- 安装 vLLM:
pip install vllm - 启动服务:
vllm serve Qwen/Qwen3.5-397B-A17B --tensor-parallel-size 8 - 使用 OpenAI 兼容接口进行调用
Mac 用户(需 256GB M3 Ultra):
- 使用 Unsloth 4bit 量化版(约 214GB)
- 通过 llama-server 部署
- 可达到 25+ tokens/s 的速度,日常使用非常流畅
坑和吐槽
- Debug 偶尔翻车:开发者反馈“写新代码很行,但修改已有代码容易越改越乱,且很难纠正回来”。
- 命名迷魂阵:Qwen3.5-Plus 并不是开源版的升级包,而是阿里云的托管服务名。这名字起得确实让人头大。
- 本地部署门槛:虽然宣传“只激活 17B”,但你必须把完整的 397B 模型全部加载到显存里。即便是 4bit 量化也需要 200GB+ 显存。别被“17B active”给骗了,以为普通小机器就能跑。
- 并非全能冠军:在 SWE-bench 等专业的编程 Agent 评测中,与 Claude 或 GPT 的专业编程模型相比仍有差距。不要指望它在所有场景下都是最强的。
安全和隐私
- 数据存储:开源版支持完全本地化,数据不出门。Plus API 走阿里云,适用阿里云的隐私保护政策。
- 开源审计:Apache 2.0 协议,代码和权重完全公开,任何人都可以进行安全审计。
- 注意点:如果使用阿里云 API,数据会经过国内服务器。对数据出境极其敏感的业务建议选择自部署。
替代方案
| 替代品 | 优势 | 劣势 |
|---|---|---|
| DeepSeek V3.2 | MIT 协议,编程能力极强 | 公司未来发展存在不确定性 |
| Llama 4 Maverick | Meta 背书,全球生态最广 | MoE 推理效率目前不如 Qwen |
| Gemini 3 Flash | 价格接近,Google 生态集成 | 闭源模型,无法实现私有化部署 |
| Claude Opus 4.5 | 目前最稳定可靠的逻辑王者 | 价格贵了 37 倍 |
| Mistral Large | 欧洲出品,GDPR 合规友好 | 综合模型能力略逊一筹 |
给投资人
市场分析
- 赛道规模:企业级 LLM 市场 2026 年预计达 $5.91B,2034 年预计达 $48.25B(年复合增长率 30%)
- AI Agent 市场:2026 年 $7.8B -> 2030 年将爆发至 $52B
- 增长率:全球 LLM 市场年复合增长率高达 35.57%
- 驱动因素:Gartner 预测 80% 的企业将在 2026 年前部署 GenAI,40% 的企业应用将嵌入 AI Agent。
竞争格局
| 层级 | 玩家 | 定位 |
|---|---|---|
| 头部闭源 | OpenAI (GPT-5.2)、Anthropic (Claude Opus)、Google (Gemini 3) | 追求极致性能,价格昂贵 |
| 头部开源 | 阿里 Qwen3.5、Meta Llama 4 | 走“开源+商业”双轨制,抢占生态 |
| 中国竞争者 | DeepSeek、字节豆包、智谱 GLM、月之暗面 Kimi | 各有千秋,在细分领域竞争激烈 |
| 推理平台 | Groq、Together AI、Fireworks | 靠极致优化推理效率和速度获利 |
Timing 分析
- 为什么是现在:2026 年初是 Agentic AI 的爆发节点。Anthropic 发布了 Computer Use 升级,OpenAI 推出了 Operator,Qwen3.5 带着视觉 Agent 入场——三巨头同时押注“AI 操作电脑”。
- 技术成熟度:MoE 架构经过多轮验证,已从实验室走向大规模生产。线性注意力技术让百万级上下文真正具备了商用价值。
- 市场准备度:企业对 AI 自动化的需求已达顶点,但普遍被闭源 API 的高昂价格和数据安全顾虑所阻碍。开源且廉价的 Qwen3.5 正好填补了这一市场空白。
团队背景
- 掌舵人:周靖人,阿里云 CTO,哥伦比亚大学 CS 博士,前微软 11 年资深架构师。
- 团队规模:阿里云 AI 核心团队,虽然具体人数未公开,但从其发布 300+ 开源模型的速度来看,团队战斗力极强。
- 过往成绩:2021 年 M6 模型达 10 万亿参数;Qwen 系列在一年内吸引了 9 万家企业客户。
- 战略地位:马云亲自定期听取汇报,周靖人已升任阿里集团合伙人,地位稳固。
融资情况
- 母公司:阿里巴巴集团(NYSE: BABA),市值约 $3000 亿。
- 非独立融资:Qwen 是阿里云的战略级项目,资金由集团全额支持。
- 商业化信号:Qwen3.5 发布当天阿里股价应声上涨;9 万家企业客户意味着 AI 业务已成为阿里云新的增长引擎。
- 投资角度:虽然无法直接投资 Qwen,但可以通过阿里巴巴股票间接参与这一 AI 进程。
结论
一句话总结:Qwen3.5 是 2026 年开源大模型的新标杆——它用不到闭源模型 1/5 的价格,实现了 80-90% 的核心能力,并带来了目前开源界最强的视觉 Agent 能力。
| 用户类型 | 建议 |
|---|---|
| 开发者 | 强烈推荐。Apache 2.0 协议、价格极低、完全兼容 OpenAI。除非你需要最顶级的 debug 能力,否则它是首选。 |
| 产品经理 | 推荐关注。其 MoE 架构的“多而精”思路和“开源+商业”的双轨策略,非常值得在产品规划中借鉴。 |
| 博主 | 值得大写特写。无论是“$0.40 vs $15”的价格战,还是中美 AI 竞赛,亦或是开源视觉 Agent,都有极高的话题度。 |
| 早期采用者 | 推荐试用。API 接入仅需 5 分钟,免费版功能不缩水。但建议保留 Claude 作为复杂 debug 场景的后备。 |
| 投资人 | 关注赛道机会。Qwen3.5 验证了开源大模型的商业闭环。阿里巴巴作为间接投资标的,值得纳入长期观察名单。 |
资源链接
| 资源 | 链接 |
|---|---|
| 官网 | 阿里云 Model Studio |
| GitHub | QwenLM/Qwen3.5 |
| Hugging Face | Qwen/Qwen3.5-397B-A17B |
| 文档 | Qwen 官方文档 |
| Agent 框架 | Qwen-Agent |
| vLLM 部署指南 | vLLM Recipes |
| 本地部署 (Unsloth) | Unsloth 指南 |
| @Alibaba_Qwen |
2026-02-17 | Trend-Tracker v7.3