Back to Explore

Expressive Mode for ElevenAgents

AI Voice Agents

AI voice agents that adapt tone, timing & emotion by context

💡 Expressive Mode is a voice agent so expressive that it blurs the line between AI and human conversation. Powered by Eleven v3 Conversational and a new turn-taking system for better-timed responses with fewer interruptions.

30-Second Verdict
What is it: ElevenLabs 为其语音 Agent 推出的情感模式,使 AI 能根据用户情绪实时调整语气、语调和节奏。
Worth attention: 非常值得。作为估值 110 亿美金领头羊的战略更新,它定义了语音 AI 从“能说话”到“会说话”的新基线。
8/10

Hype

9/10

Utility

1

Votes

Product Profile
Full Analysis Report
~6 min

Expressive Mode for ElevenAgents:让 AI 客服学会"察言观色"

2026-03-03 | 官网 | ProductHunt | 公告博客


30秒快速判断

这东西干嘛的:ElevenLabs 给自家语音 Agent 加了"情感模式"——AI 客服不再用一成不变的语调回答问题,而是能根据你的情绪实时调整语气。你急了它柔声安抚,你困惑它放慢节奏,你开心它跟着愉快起来。

值不值得关注:非常值得。这不是一个新创业公司的试验品,而是估值 $110 亿、年收入 $3.3 亿的 ElevenLabs 的战略级产品更新。Voice AI 从"能说话"到"会说话",这是一个标志性节点。对做语音相关产品的开发者来说,这直接重新定义了用户体验基线。


与我有关三问

与我有关吗?

目标用户是谁

  • 企业客服团队(要把呼叫中心 AI 化的公司)
  • 语音 AI 产品的开发者(做语音助手、电话机器人的人)
  • 任何用 ElevenLabs API 的现有客户

我是目标用户吗? 如果你正在做以下任何一件事:

  • 搭建 AI 客服系统 → 你必须看看这个
  • 做语音交互产品(教育、医疗、金融)→ 直接影响你的产品体验
  • 写代码调 TTS API → 了解一下技术实现思路
  • 以上都不是 → 作为科技趋势关注就好,不用急着上手

对我有用吗?

维度收益代价
时间客户通话满意度提升,投诉升级减少集成和调试 system prompt 需要 1-2 天
金钱替代真人客服,降低 20-30% 运营成本$0.08/分钟,10000 分钟/月 = $800
精力不用手动调语气参数,模型自动适配需要在 system prompt 里精心设计情绪规则

ROI 判断:如果你现在有真人客服团队处理电话,或者你的 AI 语音助手因为"太像机器"被用户投诉,这个投入产出比很高。但如果你只是做简单的 TTS(比如生成播客音频),Expressive Mode 的增量价值有限。

喜闻乐见吗?

爽点在哪

  • 情绪感知真的管用:它通过 Scribe v2 Realtime 实时分析你的语气、语调、停顿,推断你当前的情绪状态
  • Turn-taking 终于不尬了:不再动不动打断你说话,知道什么时候该等你说完

"哇"的瞬间

"卧槽 这是我听过最像真人的 AI!它会自己停顿,叹气、惋惜,完全模拟了真人客服的所有情绪" — @xiaohu (493 likes, 48789 views)

"This is nuts; Elevenlabs nailed it. Voice but especially latency." — @kimmonismus

用户真实评价

正面:"the only proven, production-ready TTS solution" — G2 Review 吐槽:"credits消耗太快了,而且不滚存" — Trustpilot Review


给独立开发者

技术栈

  • 核心 TTS 模型:Eleven v3 Conversational — 基于 Eleven v3,专门为实时对话优化的超低延迟版本
  • 语音转文字:Scribe v2 Realtime — 不只是转文字,还能从语音信号中推断情绪(升调 = 惊讶/释然,短促感叹词 = 兴奋)
  • Turn-taking 系统:基于 Scribe v2 的信号,判断何时该说、该停、该等
  • API 架构:三种接入方式 — REST(完整请求)、Streaming SSE(渐进式)、WebSocket + WebRTC(实时双向)
  • SDK:Python / JavaScript / Swift / Kotlin
  • 输出格式:MP3 / PCM / WAV / OPUS / u-law(电话场景)
  • 合规:SOC 2, HIPAA, GDPR,支持 EU 数据驻留和 Zero Retention

核心功能怎么实现的

说白了就是两件事合在一起:

  1. 让模型"听懂"情绪:Scribe v2 不只做语音转文字,还分析你说话的方式——语速、音高、停顿模式——来推断你是着急、生气还是开心
  2. 让输出"带着"情绪:v3 Conversational 不是一句一句独立生成,而是保持整段对话的情感上下文。还能通过 [laughs][whispers][sighs] 这样的 expressive tags 精确控制

一个很聪明的设计:你可以在 system prompt 里定义情绪规则("当用户语气焦躁时,用更慢更柔和的语调回应"),也可以让 LLM 自己往输出里插 expressive tags。

开源情况

  • ElevenLabs 不开源,纯云端 API

  • 开源替代品

    • Chatterbox (MIT, Resemble AI) — 盲测中 63.8% 听众偏好它而非 ElevenLabs,可商用
    • Fish Audio Open Audio S1-mini — CC-BY-NC,不可商用但可本地跑
    • Kokoro (Apache) — 可商用
    • Coqui TTS — 开源语音克隆
  • 自己做难度:高。单纯 TTS 可以用开源方案,但"实时情绪感知 + 情感调节 + 低延迟 turn-taking"这套组合拳,目前开源社区还没有完整方案,预计 6-12 人月。

商业模式

  • 变现方式:按用量付费 API
  • 定价:$0.08/分钟(TTS 按字符计费,STT 按分钟计费)
  • 2025 年 ARR:$3.3 亿,同比增长 175%
  • 客户量:41% Fortune 500,1000+ 企业客户

巨头风险

这个赛道巨头已经在场了:

  • Google 有 Cloud TTS + Gemini 语音能力
  • OpenAI 有 Advanced Voice Mode
  • Amazon 有 Polly + Alexa 技术栈
  • 微软 有 Azure Speech + Copilot

但 ElevenLabs 的护城河在于:语音质量仍然是公认的天花板,加上 $110 亿估值和 $7.8 亿融资。短期内不会被替代,但长期巨头跟进是确定的。开源社区(特别是 Chatterbox)正在快速追赶英语质量,但多语言和情感控制仍有差距。


给产品经理

痛点分析

  • 解决什么问题:AI 客服接到愤怒客户的电话时,用平淡的语调回应只会火上浇油。Expressive Mode 让 AI 能"察言观色",用合适的语气安抚、引导、解决问题
  • 痛点有多痛:高频 + 刚需。每个有呼叫中心的企业都面临这个问题。一次糟糕的 AI 客服体验可能直接丢掉一个客户

用户画像

  • 企业客服负责人:想用 AI 降成本但又怕用户体验下降
  • 语音产品开发者:做电话机器人、语音助手需要更自然的交互
  • 多语言业务:需要在 70+ 种语言中保持自然的语音体验
  • 使用场景:客服热线、催收电话、预约确认、售后回访、多语言导购

功能拆解

功能类型说明
实时情绪感知核心通过 Scribe v2 分析语音信号推断用户情绪
上下文感知语气调节核心v3 Conversational 保持整段对话的情感连贯性
Expressive Tags核心[laughs] [whispers] [sighs] 等精确情绪控制
System Prompt 情绪规则核心可定义品牌语气和合规要求
70+ 语言支持锦上添花多语言情感表达(质量因语言而异)
Turn-taking 优化核心减少打断,更准确的说话时机判断

竞品差异

vsExpressive ModeFish Audio S1ChatterboxPlayHT
核心差异实时情绪感知+调节Emotion tags开源高质量大声音库
价格$0.08/min$9.99/月免费(MIT)付费
语言70+8142
自托管是(mini版)
商用受限(CC-BY-NC)

可借鉴的点

  1. 情绪感知作为基础能力:不是"加了个功能",而是重新定义了语音 Agent 的基线体验。任何做语音产品的团队都应该思考"情绪"这个维度
  2. Expressive Tags 的设计:让 LLM 通过文本标签控制语音情感,这个接口设计很优雅,降低了集成复杂度
  3. System Prompt 情绪规则:把品牌语气和合规要求通过 prompt 实现,不需要额外训练模型

给科技博主

创始人故事

  • Mati Staniszewski (CEO):波兰 Warsaw 出生,Imperial College London 数学一等荣誉毕业,先后在 Opera Software (商业智能)、BlackRock (产品开发)、Palantir (部署策略师,4年) 工作
  • Piotr Dabkowski (联创/研究负责人):Gdansk 出生,Oxford 工程学士 + Cambridge 高级计算机科学 MPhil,NeurIPS 2017 论文作者
  • 两人在 Warsaw 的哥白尼高中相识,15 年老友
  • 创业动机:受够了波兰电影只有一个男声旁白覆盖整部片子的糟糕配音体验。"我们想让每种语言都能有原声级别的配音"
  • 早期挣扎:被 30-50 个投资人拒绝。"这个市场存在吗?两个欧洲年轻人怎么和科技巨头竞争?" 最终以 $9M 估值融了 $2M,卖出 11% 股权
  • 关键转折:原本做配音(dubbing),但 YouTuber 对配音兴趣不大,对 TTS 生成工具热情很高,于是果断转型

争议点/讨论角度

  • "通过图灵测试的客服"是好事吗? — Luke Harries (ElevenLabs 增长负责人) 在采访中说 Agent 正在"通过图灵测试"。这引发了一个伦理问题:当 AI 客服听起来完全像真人,消费者有没有权利知道自己在和 AI 说话?
  • 开源正在追赶 — Chatterbox 在盲测中已经打败了 ElevenLabs(63.8% 偏好率)。ElevenLabs 的护城河到底有多深?
  • $110 亿估值合理吗? — 2025 年 ARR $3.3 亿,33x ARR 的估值在 AI 公司中算高还是低?

热度数据

  • PH 上:票数仅 1(几乎没有 PH 社区关注,可能是因为不是新产品而是功能更新)
  • Twitter/X 上:官方推文 1100 万 views, 2297 likes。CEO Mati 的 live demo 推文 2095 likes。说明真正的讨论在 Twitter 而非 PH
  • 发布 timing:2 月 10 日发布,2 月 4 日刚宣布 $5 亿融资。产品发布和融资宣传打了组合拳

内容建议

  • 适合写的角度:"AI 客服终于学会了察言观色" — 从人类情感交互的角度切入,不只是技术评测
  • 蹭热点机会:ElevenLabs IPO 准备中,任何关于它的深度内容都有长尾流量

给早期采用者

定价分析

层级价格包含功能够用吗?
Free$0少量字符额度试试看够了,跑业务不够
Starter$5/月30,000 字符个人小项目
Scale$22/月100,000 字符轻度使用
Business$99/月500,000 字符中等业务量
Enterprise定制无限 + SLA大规模部署
Grants免费创业公司专属额度早期创业公司首选

注意:$0.08/分钟听起来不多,但呼叫中心每天几百通电话,费用上去很快。而且 credits 不滚存。

上手指南

  • 上手时间:15 分钟可以跑通第一个 demo
  • 学习曲线:低(如果你用过任何 TTS API)
  • 步骤
    1. 注册 ElevenLabs 账号,获取 API Key
    2. 在 Agent 配置面板,选择 V3 Conversational 作为 TTS 模型
    3. Expressive Mode 默认启用,无需额外配置
    4. 在 system prompt 中添加情绪规则(可选但推荐)
    5. 测试、迭代 prompt 直到语气符合品牌需求

坑和吐槽

  1. Expressive tags 只管 4-5 个词:你写了 [whispers],它只低语一小段就恢复正常。如果要长段低语,得反复加 tag
  2. Professional Voice Clones 不兼容:如果你花钱做了 PVC,切到 v3 Conversational 后声音可能完全不像原来的
  3. 跨 session 一致性:同一个声音在不同通话里可能有微妙差异,对品牌一致性有要求的要注意
  4. 非英语质量参差:70+ 语言听起来很美,但实际上英语之外的质量差异较大

安全和隐私

  • 数据加密:传输中和静态都加密
  • 合规认证:SOC 2, HIPAA, GDPR
  • EU 数据驻留:支持指定数据存储在欧盟
  • Zero Retention 模式:可以选择不存储任何音频数据

替代方案

替代品优势劣势
Chatterbox (MIT)免费、可商用、盲测胜出语言少、没有 Agent 框架
Fish Audio S1-mini便宜、可本地跑CC-BY-NC 不可商用
OpenAI Advanced Voice端到端语音模型、延迟低不专注 Agent 场景
PlayHT142 语言、600+ 声音情感控制不如 ElevenLabs

给投资人

市场分析

  • Conversational AI 市场:2025 年 $148 亿 → 2034 年 $825 亿,CAGR 21%
  • Voice AI Agents 细分:2024 年 $24 亿 → 2034 年 $475 亿,CAGR 34.8%
  • AI 语音生成:2024 年 $30 亿 → 2030 年 $204 亿,CAGR 37.1%
  • 驱动因素:80% 企业计划 2026 年前集成 AI 语音到客服;AI 客服可降低 20-30% 运营成本

竞争格局

层级玩家定位
头部ElevenLabs, Google, Amazon, Microsoft, OpenAI全栈语音 AI 平台
腰部PlayHT, Resemble AI, LMNT, Deepgram垂直场景或特定能力
开源挑战者Chatterbox, Fish Audio, Kokoro, Coqui免费/低成本替代

Timing 分析

  • 为什么是现在:三个因素同时成熟 — 1) LLM 足够聪明可以理解情感上下文;2) TTS 延迟降到 <100ms 可以做实时对话;3) 企业对 AI 客服的接受度从"试试看"变成"必须有"
  • 技术成熟度:英语场景已经 production-ready,多语言还在追赶
  • 市场准备度:高。Deutsche Telekom, Klarna, Revolut 等已经在生产环境使用

团队背景

  • CEO Mati Staniszewski:Imperial 数学 + Palantir 4 年,TIME 2025 AI 100 人
  • CTO Piotr Dabkowski:Oxford + Cambridge,NeurIPS 论文作者
  • 团队规模:400 人,20 个 5-10 人微团队
  • 全球布局:14 个城市的办公室
  • 管理风格:CEO 亲自面试每一个人(即使公司已经 $2 亿收入)

融资情况

轮次金额估值时间领投
Pre-seed$2M$9M2023初
Series B$80M$1.1B2024.01a16z, Nat Friedman
Series C$180M$3.3B2025.01ICONIQ, a16z
Tender Offer$100M$6.6B2025.09Sequoia, ICONIQ
Series D$500M$11B2026.02Sequoia
累计$781M
  • 2025 ARR:$3.3 亿,同比增长 175%
  • IPO 计划:CEO 公开表示正在"建设通往 IPO 的道路"

结论

Expressive Mode 不是一个新产品,而是语音 AI 行业的一个分水岭。 它把"AI 能说话"的能力提升到"AI 会说话"。对于做语音交互的团队来说,这重新定义了用户体验的基线——你的竞品如果上了这个,你没上,用户会明显感觉到差距。

用户类型建议
开发者值得关注。如果做语音产品,试用 API 了解能力边界;如果想自建,关注 Chatterbox 等开源方案追赶进度
产品经理强烈推荐了解。"情绪感知"会成为语音产品的标配能力,现在开始规划不算早
博主好素材。创始人故事(波兰配音 → $110 亿公司)+ AI 伦理争议(通过图灵测试的客服)都是好角度
早期采用者如果有语音客服需求,直接试。免费额度够体验,Grants 适合创业公司。注意 PVC 不兼容和 credits 消耗
投资人Voice AI Agent 是 CAGR 35% 的赛道,ElevenLabs 是当之无愧的领头羊。$110 亿估值 (33x ARR) 不便宜,但增速和客户质量撑得住

资源链接

资源链接
官网https://elevenlabs.io/agents/expressive-mode
博客公告https://elevenlabs.io/blog/introducing-expressive-mode
API 文档https://elevenlabs.io/docs/eleven-agents/customization/voice/expressive-mode
定价https://elevenlabs.io/pricing
Twitter Demohttps://x.com/elevenlabsio/status/2021237336793657447
Series D 公告https://elevenlabs.io/blog/series-d

2026-03-03 | Trend-Tracker v7.3

One-line Verdict

Expressive Mode 是语音 AI 行业的分水岭,将“情绪”引入实时交互,标志着 AI 客服进入生产力爆发期,是相关从业者必须关注的标杆产品。

Was this analysis helpful?

FAQ

Frequently Asked Questions about Expressive Mode for ElevenAgents

ElevenLabs 为其语音 Agent 推出的情感模式,使 AI 能根据用户情绪实时调整语气、语调和节奏。

The main features of Expressive Mode for ElevenAgents include: 实时情绪感知, 上下文感知语气调节, Expressive Tags 精确控制, Turn-taking 说话时机优化.

$0.08/分钟;提供从免费到 $99+/月的多种订阅层级,Credits 不滚存。

企业客服团队、语音 AI 开发者、呼叫中心负责人及 ElevenLabs 现有 API 客户。

Alternatives to Expressive Mode for ElevenAgents include: Fish Audio S1, Chatterbox, PlayHT, OpenAI Advanced Voice Mode.

Data source: ProductHuntMar 3, 2026
Last updated: