Expressive Mode for ElevenAgents:让 AI 客服学会"察言观色"
2026-03-03 | 官网 | ProductHunt | 公告博客
30秒快速判断
这东西干嘛的:ElevenLabs 给自家语音 Agent 加了"情感模式"——AI 客服不再用一成不变的语调回答问题,而是能根据你的情绪实时调整语气。你急了它柔声安抚,你困惑它放慢节奏,你开心它跟着愉快起来。
值不值得关注:非常值得。这不是一个新创业公司的试验品,而是估值 $110 亿、年收入 $3.3 亿的 ElevenLabs 的战略级产品更新。Voice AI 从"能说话"到"会说话",这是一个标志性节点。对做语音相关产品的开发者来说,这直接重新定义了用户体验基线。
与我有关三问
与我有关吗?
目标用户是谁:
- 企业客服团队(要把呼叫中心 AI 化的公司)
- 语音 AI 产品的开发者(做语音助手、电话机器人的人)
- 任何用 ElevenLabs API 的现有客户
我是目标用户吗? 如果你正在做以下任何一件事:
- 搭建 AI 客服系统 → 你必须看看这个
- 做语音交互产品(教育、医疗、金融)→ 直接影响你的产品体验
- 写代码调 TTS API → 了解一下技术实现思路
- 以上都不是 → 作为科技趋势关注就好,不用急着上手
对我有用吗?
| 维度 | 收益 | 代价 |
|---|---|---|
| 时间 | 客户通话满意度提升,投诉升级减少 | 集成和调试 system prompt 需要 1-2 天 |
| 金钱 | 替代真人客服,降低 20-30% 运营成本 | $0.08/分钟,10000 分钟/月 = $800 |
| 精力 | 不用手动调语气参数,模型自动适配 | 需要在 system prompt 里精心设计情绪规则 |
ROI 判断:如果你现在有真人客服团队处理电话,或者你的 AI 语音助手因为"太像机器"被用户投诉,这个投入产出比很高。但如果你只是做简单的 TTS(比如生成播客音频),Expressive Mode 的增量价值有限。
喜闻乐见吗?
爽点在哪:
- 情绪感知真的管用:它通过 Scribe v2 Realtime 实时分析你的语气、语调、停顿,推断你当前的情绪状态
- Turn-taking 终于不尬了:不再动不动打断你说话,知道什么时候该等你说完
"哇"的瞬间:
"卧槽 这是我听过最像真人的 AI!它会自己停顿,叹气、惋惜,完全模拟了真人客服的所有情绪" — @xiaohu (493 likes, 48789 views)
"这太疯狂了;Elevenlabs 搞定了。不仅是声音,尤其是延迟。" — @kimmonismus
用户真实评价:
正面:"唯一经过验证、可投入生产的 TTS 解决方案" — G2 Review 吐槽:"额度消耗太快了,而且不滚存" — Trustpilot Review
给独立开发者
技术栈
- 核心 TTS 模型:Eleven v3 Conversational — 基于 Eleven v3,专门为实时对话优化的超低延迟版本
- 语音转文字:Scribe v2 Realtime — 不只是转文字,还能从语音信号中推断情绪(升调 = 惊讶/释然,短促感叹词 = 兴奋)
- Turn-taking 系统:基于 Scribe v2 的信号,判断何时该说、该停、该等
- API 架构:三种接入方式 — REST(完整请求)、Streaming SSE(渐进式)、WebSocket + WebRTC(实时双向)
- SDK:Python / JavaScript / Swift / Kotlin
- 输出格式:MP3 / PCM / WAV / OPUS / u-law(电话场景)
- 合规:SOC 2, HIPAA, GDPR,支持 EU 数据驻留和 Zero Retention
核心功能怎么实现的
说白了就是两件事合在一起:
- 让模型"听懂"情绪:Scribe v2 不只做语音转文字,还分析你说话的方式——语速、音高、停顿模式——来推断你是着急、生气还是开心
- 让输出"带着"情绪:v3 Conversational 不是一句一句独立生成,而是保持整段对话的情感上下文。还能通过
[laughs]、[whispers]、[sighs]这样的 expressive tags 精确控制
一个很聪明的设计:你可以在 system prompt 里定义情绪规则("当用户语气焦躁时,用更慢更柔和的语调回应"),也可以让 LLM 自己往输出里插 expressive tags。
开源情况
-
ElevenLabs 不开源,纯云端 API
-
开源替代品:
- Chatterbox (MIT, Resemble AI) — 盲测中 63.8% 听众偏好它而非 ElevenLabs,可商用
- Fish Audio Open Audio S1-mini — CC-BY-NC,不可商用但可本地跑
- Kokoro (Apache) — 可商用
- Coqui TTS — 开源语音克隆
-
自己做难度:高。单纯 TTS 可以用开源方案,但"实时情绪感知 + 情感调节 + 低延迟 turn-taking"这套组合拳,目前开源社区还没有完整方案,预计 6-12 人月。
商业模式
- 变现方式:按用量付费 API
- 定价:$0.08/分钟(TTS 按字符计费,STT 按分钟计费)
- 2025 年 ARR:$3.3 亿,同比增长 175%
- 客户量:41% Fortune 500,1000+ 企业客户
巨头风险
这个赛道巨头已经在场了:
- Google 有 Cloud TTS + Gemini 语音能力
- OpenAI 有 Advanced Voice Mode
- Amazon 有 Polly + Alexa 技术栈
- 微软 有 Azure Speech + Copilot
但 ElevenLabs 的护城河在于:语音质量仍然是公认的天花板,加上 $110 亿估值和 $7.8 亿融资。短期内不会被替代,但长期巨头跟进是确定的。开源社区(特别是 Chatterbox)正在快速追赶英语质量,但多语言和情感控制仍有差距。
给产品经理
痛点分析
- 解决什么问题:AI 客服接到愤怒客户的电话时,用平淡的语调回应只会火上浇油。Expressive Mode 让 AI 能"察言观色",用合适的语气安抚、引导、解决问题
- 痛点有多痛:高频 + 刚需。每个有呼叫中心的企业都面临这个问题。一次糟糕的 AI 客服体验可能直接丢掉一个客户
用户画像
- 企业客服负责人:想用 AI 降成本但又怕用户体验下降
- 语音产品开发者:做电话机器人、语音助手需要更自然的交互
- 多语言业务:需要在 70+ 种语言中保持自然的语音体验
- 使用场景:客服热线、催收电话、预约确认、售后回访、多语言导购
功能拆解
| 功能 | 类型 | 说明 |
|---|---|---|
| 实时情绪感知 | 核心 | 通过 Scribe v2 分析语音信号推断用户情绪 |
| 上下文感知语气调节 | 核心 | v3 Conversational 保持整段对话的情感连贯性 |
| Expressive Tags | 核心 | [laughs] [whispers] [sighs] 等精确情绪控制 |
| System Prompt 情绪规则 | 核心 | 可定义品牌语气和合规要求 |
| 70+ 语言支持 | 锦上添花 | 多语言情感表达(质量因语言而异) |
| Turn-taking 优化 | 核心 | 减少打断,更准确的说话时机判断 |
竞品差异
| vs | Expressive Mode | Fish Audio S1 | Chatterbox | PlayHT |
|---|---|---|---|---|
| 核心差异 | 实时情绪感知+调节 | 情绪标签 (Emotion tags) | 开源高质量 | 庞大声音库 |
| 价格 | $0.08/min | $9.99/月 | 免费(MIT) | 付费 |
| 语言 | 70+ | 8 | 较少 | 142 |
| 自托管 | 否 | 是(mini版) | 是 | 否 |
| 商用 | 是 | 受限(CC-BY-NC) | 是 | 是 |
可借鉴的点
- 情绪感知作为基础能力:不是"加了个功能",而是重新定义了语音 Agent 的基线体验。任何做语音产品的团队都应该思考"情绪"这个维度
- Expressive Tags 的设计:让 LLM 通过文本标签控制语音情感,这个接口设计很优雅,降低了集成复杂度
- System Prompt 情绪规则:把品牌语气和合规要求通过 prompt 实现,不需要额外训练模型
给科技博主
创始人故事
- Mati Staniszewski (CEO):波兰华沙出生,伦敦帝国理工学院数学一等荣誉毕业,先后在 Opera Software (商业智能)、BlackRock (产品开发)、Palantir (部署策略师,4年) 工作
- Piotr Dabkowski (联创/研究负责人):格但斯克出生,牛津工程学士 + 剑桥高级计算机科学 MPhil,NeurIPS 2017 论文作者
- 两人在华沙的哥白尼高中相识,15 年老友
- 创业动机:受够了波兰电影只有一个男声旁白覆盖整部片子的糟糕配音体验。"我们想让每种语言都能有原声级别的配音"
- 早期挣扎:被 30-50 个投资人拒绝。"这个市场存在吗?两个欧洲年轻人怎么和科技巨头竞争?" 最终以 $9M 估值融了 $2M,卖出 11% 股权
- 关键转折:原本做配音(dubbing),但 YouTuber 对配音兴趣不大,对 TTS 生成工具热情很高,于是果断转型
争议点/讨论角度
- "通过图灵测试的客服"是好事吗? — Luke Harries (ElevenLabs 增长负责人) 在采访中说 Agent 正在"通过图灵测试"。这引发了一个伦理问题:当 AI 客服听起来完全像真人,消费者有没有权利知道自己在和 AI 说话?
- 开源正在追赶 — Chatterbox 在盲测中已经打败了 ElevenLabs(63.8% 偏好率)。ElevenLabs 的护城河到底有多深?
- $110 亿估值合理吗? — 2025 年 ARR $3.3 亿,33x ARR 的估值在 AI 公司中算高还是低?
热度数据
- PH 上:票数仅 1(几乎没有 PH 社区关注,可能是因为不是新产品而是功能更新)
- Twitter/X 上:官方推文 1100 万播放, 2297 赞。CEO Mati 的 live demo 推文 2095 赞。说明真正的讨论在 Twitter 而非 PH
- 发布时机:2 月 10 日发布,2 月 4 日刚宣布 $5 亿融资。产品发布和融资宣传打了组合拳
内容建议
- 适合写的角度:"AI 客服终于学会了察言观色" — 从人类情感交互的角度切入,不只是技术评测
- 蹭热点机会:ElevenLabs IPO 准备中,任何关于它的深度内容都有长尾流量
给早期采用者
定价分析
| 层级 | 价格 | 包含功能 | 够用吗? |
|---|---|---|---|
| Free | $0 | 少量字符额度 | 试试看够了,跑业务不够 |
| Starter | $5/月 | 30,000 字符 | 个人小项目 |
| Scale | $22/月 | 100,000 字符 | 轻度使用 |
| Business | $99/月 | 500,000 字符 | 中等业务量 |
| Enterprise | 定制 | 无限 + SLA | 大规模部署 |
| Grants | 免费 | 创业公司专属额度 | 早期创业公司首选 |
注意:$0.08/分钟听起来不多,但呼叫中心每天几百通电话,费用上去很快。而且额度 (credits) 不滚存。
上手指南
- 上手时间:15 分钟可以跑通第一个 demo
- 学习曲线:低(如果你用过任何 TTS API)
- 步骤:
- 注册 ElevenLabs 账号,获取 API Key
- 在 Agent 配置面板,选择 V3 Conversational 作为 TTS 模型
- Expressive Mode 默认启用,无需额外配置
- 在 system prompt 中添加情绪规则(可选但推荐)
- 测试、迭代 prompt 直到语气符合品牌需求
坑和吐槽
- Expressive tags 只管 4-5 个词:你写了
[whispers],它只低语一小段就恢复正常。如果要长段低语,得反复加 tag - Professional Voice Clones (PVC) 不兼容:如果你花钱做了专业克隆声音,切到 v3 Conversational 后声音可能完全不像原来的
- 跨 session 一致性:同一个声音在不同通话里可能有微妙差异,对品牌一致性有要求的要注意
- 非英语质量参差:70+ 语言听起来很美,但实际上英语之外的质量差异较大
安全和隐私
- 数据加密:传输中和静态都加密
- 合规认证:SOC 2, HIPAA, GDPR
- EU 数据驻留:支持指定数据存储在欧盟
- Zero Retention 模式:可以选择不存储任何音频数据
替代方案
| 替代品 | 优势 | 劣势 |
|---|---|---|
| Chatterbox (MIT) | 免费、可商用、盲测胜出 | 语言少、没有 Agent 框架 |
| Fish Audio S1-mini | 便宜、可本地跑 | CC-BY-NC 不可商用 |
| OpenAI Advanced Voice | 端到端语音模型、延迟低 | 不专注 Agent 场景 |
| PlayHT | 142 语言、600+ 声音 | 情感控制不如 ElevenLabs |
给投资人
市场分析
- 对话式 AI 市场:2025 年 $148 亿 → 2034 年 $825 亿,CAGR 21%
- 语音 AI Agent 细分:2024 年 $24 亿 → 2034 年 $475 亿,CAGR 34.8%
- AI 语音生成:2024 年 $30 亿 → 2030 年 $204 亿,CAGR 37.1%
- 驱动因素:80% 企业计划 2026 年前集成 AI 语音到客服;AI 客服可降低 20-30% 运营成本
竞争格局
| 层级 | 玩家 | 定位 |
|---|---|---|
| 头部 | ElevenLabs, Google, Amazon, Microsoft, OpenAI | 全栈语音 AI 平台 |
| 腰部 | PlayHT, Resemble AI, LMNT, Deepgram | 垂直场景或特定能力 |
| 开源挑战者 | Chatterbox, Fish Audio, Kokoro, Coqui | 免费/低成本替代 |
时机 (Timing) 分析
- 为什么是现在:三个因素同时成熟 — 1) LLM 足够聪明可以理解情感上下文;2) TTS 延迟降到 <100ms 可以做实时对话;3) 企业对 AI 客服的接受度从"试试看"变成"必须有"
- 技术成熟度:英语场景已经生产就绪 (production-ready),多语言还在追赶
- 市场准备度:高。德国电信 (Deutsche Telekom), Klarna, Revolut 等已经在生产环境使用
团队背景
- CEO Mati Staniszewski:帝国理工数学 + Palantir 4 年,入选 TIME 2025 AI 100 人
- CTO Piotr Dabkowski:牛津 + 剑桥,NeurIPS 论文作者
- 团队规模:400 人,20 个 5-10 人微团队
- 全球布局:14 个城市的办公室
- 管理风格:CEO 亲自面试每一个人(即使公司已经 $2 亿收入)
融资情况
| 轮次 | 金额 | 估值 | 时间 | 领投 |
|---|---|---|---|---|
| Pre-seed | $2M | $9M | 2023初 | — |
| Series B | $80M | $1.1B | 2024.01 | a16z, Nat Friedman |
| Series C | $180M | $3.3B | 2025.01 | ICONIQ, a16z |
| Tender Offer | $100M | $6.6B | 2025.09 | Sequoia, ICONIQ |
| Series D | $500M | $11B | 2026.02 | Sequoia |
| 累计 | $781M |
- 2025 ARR:$3.3 亿,同比增长 175%
- IPO 计划:CEO 公开表示正在"建设通往 IPO 的道路"
结论
Expressive Mode 不是一个新产品,而是语音 AI 行业的一个分水岭。 它把"AI 能说话"的能力提升到"AI 会说话"。对于做语音交互的团队来说,这重新定义了用户体验的基线——你的竞品如果上了这个,你没上,用户会明显感觉到差距。
| 用户类型 | 建议 |
|---|---|
| 开发者 | 值得关注。如果做语音产品,试用 API 了解能力边界;如果想自建,关注 Chatterbox 等开源方案追赶进度 |
| 产品经理 | 强烈推荐了解。"情绪感知"会成为语音产品的标配能力,现在开始规划不算早 |
| 博主 | 好素材。创始人故事(波兰配音 → $110 亿公司)+ AI 伦理争议(通过图灵测试的客服)都是好角度 |
| 早期采用者 | 如果有语音客服需求,直接试。免费额度够体验,Grants 适合创业公司。注意 PVC 不兼容和额度消耗 |
| 投资人 | Voice AI Agent 是 CAGR 35% 的赛道,ElevenLabs 是当之无愧的领头羊。$110 亿估值 (33x ARR) 不便宜,但增速和客户质量撑得住 |
资源链接
2026-03-03 | Trend-Tracker v7.3