What is Expressive Mode for ElevenAgents?

ElevenLabs 为其语音 Agent 推出的情感模式，使 AI 能根据用户情绪实时调整语气、语调和节奏。

What are the main features of Expressive Mode for ElevenAgents?

The main features of Expressive Mode for ElevenAgents include: 实时情绪感知, 上下文感知语气调节, Expressive Tags 精确控制, Turn-taking 说话时机优化.

How much does Expressive Mode for ElevenAgents cost?

$0.08/分钟；提供从免费到 $99+/月的多种订阅层级，Credits 不滚存。

Who is Expressive Mode for ElevenAgents for?

企业客服团队、语音 AI 开发者、呼叫中心负责人及 ElevenLabs 现有 API 客户。

What are the alternatives to Expressive Mode for ElevenAgents?

Alternatives to Expressive Mode for ElevenAgents include: Fish Audio S1, Chatterbox, PlayHT, OpenAI Advanced Voice Mode.

Expressive Mode for ElevenAgents：让 AI 客服学会"察言观色"

2026-03-03 | 官网 | ProductHunt | 公告博客

30秒快速判断

这东西干嘛的：ElevenLabs 给自家语音 Agent 加了"情感模式"——AI 客服不再用一成不变的语调回答问题，而是能根据你的情绪实时调整语气。你急了它柔声安抚，你困惑它放慢节奏，你开心它跟着愉快起来。

值不值得关注：非常值得。这不是一个新创业公司的试验品，而是估值 $110 亿、年收入 $3.3 亿的 ElevenLabs 的战略级产品更新。Voice AI 从"能说话"到"会说话"，这是一个标志性节点。对做语音相关产品的开发者来说，这直接重新定义了用户体验基线。

与我有关三问

与我有关吗？

目标用户是谁：

企业客服团队（要把呼叫中心 AI 化的公司）
语音 AI 产品的开发者（做语音助手、电话机器人的人）
任何用 ElevenLabs API 的现有客户

我是目标用户吗？ 如果你正在做以下任何一件事：

搭建 AI 客服系统 → 你必须看看这个
做语音交互产品（教育、医疗、金融）→ 直接影响你的产品体验
写代码调 TTS API → 了解一下技术实现思路
以上都不是 → 作为科技趋势关注就好，不用急着上手

对我有用吗？

维度	收益	代价
时间	客户通话满意度提升，投诉升级减少	集成和调试 system prompt 需要 1-2 天
金钱	替代真人客服，降低 20-30% 运营成本	$0.08/分钟，10000 分钟/月 = $800
精力	不用手动调语气参数，模型自动适配	需要在 system prompt 里精心设计情绪规则

ROI 判断：如果你现在有真人客服团队处理电话，或者你的 AI 语音助手因为"太像机器"被用户投诉，这个投入产出比很高。但如果你只是做简单的 TTS（比如生成播客音频），Expressive Mode 的增量价值有限。

喜闻乐见吗？

爽点在哪：

情绪感知真的管用：它通过 Scribe v2 Realtime 实时分析你的语气、语调、停顿，推断你当前的情绪状态
Turn-taking 终于不尬了：不再动不动打断你说话，知道什么时候该等你说完

"哇"的瞬间：

"卧槽这是我听过最像真人的 AI！它会自己停顿，叹气、惋惜，完全模拟了真人客服的所有情绪" — @xiaohu (493 likes, 48789 views)

"This is nuts; Elevenlabs nailed it. Voice but especially latency." — @kimmonismus

用户真实评价：

正面："the only proven, production-ready TTS solution" — G2 Review 吐槽："credits消耗太快了，而且不滚存" — Trustpilot Review

给独立开发者

技术栈

核心 TTS 模型：Eleven v3 Conversational — 基于 Eleven v3，专门为实时对话优化的超低延迟版本
语音转文字：Scribe v2 Realtime — 不只是转文字，还能从语音信号中推断情绪（升调 = 惊讶/释然，短促感叹词 = 兴奋）
Turn-taking 系统：基于 Scribe v2 的信号，判断何时该说、该停、该等
API 架构：三种接入方式 — REST（完整请求）、Streaming SSE（渐进式）、WebSocket + WebRTC（实时双向）
SDK：Python / JavaScript / Swift / Kotlin
输出格式：MP3 / PCM / WAV / OPUS / u-law（电话场景）
合规：SOC 2, HIPAA, GDPR，支持 EU 数据驻留和 Zero Retention

核心功能怎么实现的

说白了就是两件事合在一起：

让模型"听懂"情绪：Scribe v2 不只做语音转文字，还分析你说话的方式——语速、音高、停顿模式——来推断你是着急、生气还是开心
让输出"带着"情绪：v3 Conversational 不是一句一句独立生成，而是保持整段对话的情感上下文。还能通过 [laughs]、[whispers]、[sighs] 这样的 expressive tags 精确控制

一个很聪明的设计：你可以在 system prompt 里定义情绪规则（"当用户语气焦躁时，用更慢更柔和的语调回应"），也可以让 LLM 自己往输出里插 expressive tags。

开源情况

ElevenLabs 不开源，纯云端 API
开源替代品：
- Chatterbox (MIT, Resemble AI) — 盲测中 63.8% 听众偏好它而非 ElevenLabs，可商用
- Fish Audio Open Audio S1-mini — CC-BY-NC，不可商用但可本地跑
- Kokoro (Apache) — 可商用
- Coqui TTS — 开源语音克隆
自己做难度：高。单纯 TTS 可以用开源方案，但"实时情绪感知 + 情感调节 + 低延迟 turn-taking"这套组合拳，目前开源社区还没有完整方案，预计 6-12 人月。

商业模式

变现方式：按用量付费 API
定价：$0.08/分钟（TTS 按字符计费，STT 按分钟计费）
2025 年 ARR：$3.3 亿，同比增长 175%
客户量：41% Fortune 500，1000+ 企业客户

巨头风险

这个赛道巨头已经在场了：

Google 有 Cloud TTS + Gemini 语音能力
OpenAI 有 Advanced Voice Mode
Amazon 有 Polly + Alexa 技术栈
微软有 Azure Speech + Copilot

但 ElevenLabs 的护城河在于：语音质量仍然是公认的天花板，加上 $110 亿估值和 $7.8 亿融资。短期内不会被替代，但长期巨头跟进是确定的。开源社区（特别是 Chatterbox）正在快速追赶英语质量，但多语言和情感控制仍有差距。

给产品经理

痛点分析

解决什么问题：AI 客服接到愤怒客户的电话时，用平淡的语调回应只会火上浇油。Expressive Mode 让 AI 能"察言观色"，用合适的语气安抚、引导、解决问题
痛点有多痛：高频 + 刚需。每个有呼叫中心的企业都面临这个问题。一次糟糕的 AI 客服体验可能直接丢掉一个客户

用户画像

企业客服负责人：想用 AI 降成本但又怕用户体验下降
语音产品开发者：做电话机器人、语音助手需要更自然的交互
多语言业务：需要在 70+ 种语言中保持自然的语音体验
使用场景：客服热线、催收电话、预约确认、售后回访、多语言导购

功能拆解

功能	类型	说明
实时情绪感知	核心	通过 Scribe v2 分析语音信号推断用户情绪
上下文感知语气调节	核心	v3 Conversational 保持整段对话的情感连贯性
Expressive Tags	核心	[laughs] [whispers] [sighs] 等精确情绪控制
System Prompt 情绪规则	核心	可定义品牌语气和合规要求
70+ 语言支持	锦上添花	多语言情感表达（质量因语言而异）
Turn-taking 优化	核心	减少打断，更准确的说话时机判断

竞品差异

vs	Expressive Mode	Fish Audio S1	Chatterbox	PlayHT
核心差异	实时情绪感知+调节	Emotion tags	开源高质量	大声音库
价格	$0.08/min	$9.99/月	免费(MIT)	付费
语言	70+	8	少	142
自托管	否	是(mini版)	是	否
商用	是	受限(CC-BY-NC)	是	是

可借鉴的点

情绪感知作为基础能力：不是"加了个功能"，而是重新定义了语音 Agent 的基线体验。任何做语音产品的团队都应该思考"情绪"这个维度
Expressive Tags 的设计：让 LLM 通过文本标签控制语音情感，这个接口设计很优雅，降低了集成复杂度
System Prompt 情绪规则：把品牌语气和合规要求通过 prompt 实现，不需要额外训练模型

给科技博主

创始人故事

Mati Staniszewski (CEO)：波兰 Warsaw 出生，Imperial College London 数学一等荣誉毕业，先后在 Opera Software (商业智能)、BlackRock (产品开发)、Palantir (部署策略师，4年) 工作
Piotr Dabkowski (联创/研究负责人)：Gdansk 出生，Oxford 工程学士 + Cambridge 高级计算机科学 MPhil，NeurIPS 2017 论文作者
两人在 Warsaw 的哥白尼高中相识，15 年老友
创业动机：受够了波兰电影只有一个男声旁白覆盖整部片子的糟糕配音体验。"我们想让每种语言都能有原声级别的配音"
早期挣扎：被 30-50 个投资人拒绝。"这个市场存在吗？两个欧洲年轻人怎么和科技巨头竞争？" 最终以 $9M 估值融了 $2M，卖出 11% 股权
关键转折：原本做配音（dubbing），但 YouTuber 对配音兴趣不大，对 TTS 生成工具热情很高，于是果断转型

争议点/讨论角度

"通过图灵测试的客服"是好事吗？ — Luke Harries (ElevenLabs 增长负责人) 在采访中说 Agent 正在"通过图灵测试"。这引发了一个伦理问题：当 AI 客服听起来完全像真人，消费者有没有权利知道自己在和 AI 说话？
开源正在追赶 — Chatterbox 在盲测中已经打败了 ElevenLabs（63.8% 偏好率）。ElevenLabs 的护城河到底有多深？
$110 亿估值合理吗？ — 2025 年 ARR $3.3 亿，33x ARR 的估值在 AI 公司中算高还是低？

热度数据

PH 上：票数仅 1（几乎没有 PH 社区关注，可能是因为不是新产品而是功能更新）
Twitter/X 上：官方推文 1100 万 views, 2297 likes。CEO Mati 的 live demo 推文 2095 likes。说明真正的讨论在 Twitter 而非 PH
发布 timing：2 月 10 日发布，2 月 4 日刚宣布 $5 亿融资。产品发布和融资宣传打了组合拳

内容建议

适合写的角度："AI 客服终于学会了察言观色" — 从人类情感交互的角度切入，不只是技术评测
蹭热点机会：ElevenLabs IPO 准备中，任何关于它的深度内容都有长尾流量

给早期采用者

定价分析

层级	价格	包含功能	够用吗？
Free	$0	少量字符额度	试试看够了，跑业务不够
Starter	$5/月	30,000 字符	个人小项目
Scale	$22/月	100,000 字符	轻度使用
Business	$99/月	500,000 字符	中等业务量
Enterprise	定制	无限 + SLA	大规模部署
Grants	免费	创业公司专属额度	早期创业公司首选

注意：$0.08/分钟听起来不多，但呼叫中心每天几百通电话，费用上去很快。而且 credits 不滚存。

上手指南

上手时间：15 分钟可以跑通第一个 demo
学习曲线：低（如果你用过任何 TTS API）
步骤：
1. 注册 ElevenLabs 账号，获取 API Key
2. 在 Agent 配置面板，选择 V3 Conversational 作为 TTS 模型
3. Expressive Mode 默认启用，无需额外配置
4. 在 system prompt 中添加情绪规则（可选但推荐）
5. 测试、迭代 prompt 直到语气符合品牌需求

坑和吐槽

Expressive tags 只管 4-5 个词：你写了 [whispers]，它只低语一小段就恢复正常。如果要长段低语，得反复加 tag
Professional Voice Clones 不兼容：如果你花钱做了 PVC，切到 v3 Conversational 后声音可能完全不像原来的
跨 session 一致性：同一个声音在不同通话里可能有微妙差异，对品牌一致性有要求的要注意
非英语质量参差：70+ 语言听起来很美，但实际上英语之外的质量差异较大

安全和隐私

数据加密：传输中和静态都加密
合规认证：SOC 2, HIPAA, GDPR
EU 数据驻留：支持指定数据存储在欧盟
Zero Retention 模式：可以选择不存储任何音频数据

替代方案

替代品	优势	劣势
Chatterbox (MIT)	免费、可商用、盲测胜出	语言少、没有 Agent 框架
Fish Audio S1-mini	便宜、可本地跑	CC-BY-NC 不可商用
OpenAI Advanced Voice	端到端语音模型、延迟低	不专注 Agent 场景
PlayHT	142 语言、600+ 声音	情感控制不如 ElevenLabs

给投资人

市场分析

Conversational AI 市场：2025 年 $148 亿 → 2034 年 $825 亿，CAGR 21%
Voice AI Agents 细分：2024 年 $24 亿 → 2034 年 $475 亿，CAGR 34.8%
AI 语音生成：2024 年 $30 亿 → 2030 年 $204 亿，CAGR 37.1%
驱动因素：80% 企业计划 2026 年前集成 AI 语音到客服；AI 客服可降低 20-30% 运营成本

竞争格局

层级	玩家	定位
头部	ElevenLabs, Google, Amazon, Microsoft, OpenAI	全栈语音 AI 平台
腰部	PlayHT, Resemble AI, LMNT, Deepgram	垂直场景或特定能力
开源挑战者	Chatterbox, Fish Audio, Kokoro, Coqui	免费/低成本替代

Timing 分析

为什么是现在：三个因素同时成熟 — 1) LLM 足够聪明可以理解情感上下文；2) TTS 延迟降到 <100ms 可以做实时对话；3) 企业对 AI 客服的接受度从"试试看"变成"必须有"
技术成熟度：英语场景已经 production-ready，多语言还在追赶
市场准备度：高。Deutsche Telekom, Klarna, Revolut 等已经在生产环境使用

团队背景

CEO Mati Staniszewski：Imperial 数学 + Palantir 4 年，TIME 2025 AI 100 人
CTO Piotr Dabkowski：Oxford + Cambridge，NeurIPS 论文作者
团队规模：400 人，20 个 5-10 人微团队
全球布局：14 个城市的办公室
管理风格：CEO 亲自面试每一个人（即使公司已经 $2 亿收入）

融资情况

轮次	金额	估值	时间	领投
Pre-seed	$2M	$9M	2023初	—
Series B	$80M	$1.1B	2024.01	a16z, Nat Friedman
Series C	$180M	$3.3B	2025.01	ICONIQ, a16z
Tender Offer	$100M	$6.6B	2025.09	Sequoia, ICONIQ
Series D	$500M	$11B	2026.02	Sequoia
累计	$781M

2025 ARR：$3.3 亿，同比增长 175%
IPO 计划：CEO 公开表示正在"建设通往 IPO 的道路"

结论

Expressive Mode 不是一个新产品，而是语音 AI 行业的一个分水岭。 它把"AI 能说话"的能力提升到"AI 会说话"。对于做语音交互的团队来说，这重新定义了用户体验的基线——你的竞品如果上了这个，你没上，用户会明显感觉到差距。

用户类型	建议
开发者	值得关注。如果做语音产品，试用 API 了解能力边界；如果想自建，关注 Chatterbox 等开源方案追赶进度
产品经理	强烈推荐了解。"情绪感知"会成为语音产品的标配能力，现在开始规划不算早
博主	好素材。创始人故事（波兰配音 → $110 亿公司）+ AI 伦理争议（通过图灵测试的客服）都是好角度
早期采用者	如果有语音客服需求，直接试。免费额度够体验，Grants 适合创业公司。注意 PVC 不兼容和 credits 消耗
投资人	Voice AI Agent 是 CAGR 35% 的赛道，ElevenLabs 是当之无愧的领头羊。$110 亿估值 (33x ARR) 不便宜，但增速和客户质量撑得住

资源链接

资源	链接
官网	https://elevenlabs.io/agents/expressive-mode
博客公告	https://elevenlabs.io/blog/introducing-expressive-mode
API 文档	https://elevenlabs.io/docs/eleven-agents/customization/voice/expressive-mode
定价	https://elevenlabs.io/pricing
Twitter Demo	https://x.com/elevenlabsio/status/2021237336793657447
Series D 公告	https://elevenlabs.io/blog/series-d

2026-03-03 | Trend-Tracker v7.3

Expressive Mode for ElevenAgents