返回探索

Expressive Mode for ElevenAgents

AI Voice Agents

能根据语境自动调整语气、节奏和情感的 AI 语音智能体

💡 Expressive Mode 是一款表现力极强的语音智能体,它模糊了 AI 与真人对话的界限。由 Eleven v3 Conversational 模型和全新的话轮转换(turn-taking)系统驱动,响应时机更精准,打断更少。

"它就像是给 AI 语音装上了一个“情商补丁”,让冷冰冰的合成音瞬间变成了能感知你喜怒哀乐的“老戏骨”。"

30秒快速判断
这App干嘛的:ElevenLabs 为其语音 Agent 推出的情感模式,使 AI 能根据用户情绪实时调整语气、语调和节奏。
值不值得关注:非常值得。作为估值 110 亿美金领头羊的战略更新,它定义了语音 AI 从“能说话”到“会说话”的新基线。
8/10

热度

9/10

实用

1

投票

产品画像
完整分析报告
~20 分钟

Expressive Mode for ElevenAgents:让 AI 客服学会"察言观色"

2026-03-03 | 官网 | ProductHunt | 公告博客


30秒快速判断

这东西干嘛的:ElevenLabs 给自家语音 Agent 加了"情感模式"——AI 客服不再用一成不变的语调回答问题,而是能根据你的情绪实时调整语气。你急了它柔声安抚,你困惑它放慢节奏,你开心它跟着愉快起来。

值不值得关注:非常值得。这不是一个新创业公司的试验品,而是估值 $110 亿、年收入 $3.3 亿的 ElevenLabs 的战略级产品更新。Voice AI 从"能说话"到"会说话",这是一个标志性节点。对做语音相关产品的开发者来说,这直接重新定义了用户体验基线。


与我有关三问

与我有关吗?

目标用户是谁

  • 企业客服团队(要把呼叫中心 AI 化的公司)
  • 语音 AI 产品的开发者(做语音助手、电话机器人的人)
  • 任何用 ElevenLabs API 的现有客户

我是目标用户吗? 如果你正在做以下任何一件事:

  • 搭建 AI 客服系统 → 你必须看看这个
  • 做语音交互产品(教育、医疗、金融)→ 直接影响你的产品体验
  • 写代码调 TTS API → 了解一下技术实现思路
  • 以上都不是 → 作为科技趋势关注就好,不用急着上手

对我有用吗?

维度收益代价
时间客户通话满意度提升,投诉升级减少集成和调试 system prompt 需要 1-2 天
金钱替代真人客服,降低 20-30% 运营成本$0.08/分钟,10000 分钟/月 = $800
精力不用手动调语气参数,模型自动适配需要在 system prompt 里精心设计情绪规则

ROI 判断:如果你现在有真人客服团队处理电话,或者你的 AI 语音助手因为"太像机器"被用户投诉,这个投入产出比很高。但如果你只是做简单的 TTS(比如生成播客音频),Expressive Mode 的增量价值有限。

喜闻乐见吗?

爽点在哪

  • 情绪感知真的管用:它通过 Scribe v2 Realtime 实时分析你的语气、语调、停顿,推断你当前的情绪状态
  • Turn-taking 终于不尬了:不再动不动打断你说话,知道什么时候该等你说完

"哇"的瞬间

"卧槽 这是我听过最像真人的 AI!它会自己停顿,叹气、惋惜,完全模拟了真人客服的所有情绪" — @xiaohu (493 likes, 48789 views)

"这太疯狂了;Elevenlabs 搞定了。不仅是声音,尤其是延迟。" — @kimmonismus

用户真实评价

正面:"唯一经过验证、可投入生产的 TTS 解决方案" — G2 Review 吐槽:"额度消耗太快了,而且不滚存" — Trustpilot Review


给独立开发者

技术栈

  • 核心 TTS 模型:Eleven v3 Conversational — 基于 Eleven v3,专门为实时对话优化的超低延迟版本
  • 语音转文字:Scribe v2 Realtime — 不只是转文字,还能从语音信号中推断情绪(升调 = 惊讶/释然,短促感叹词 = 兴奋)
  • Turn-taking 系统:基于 Scribe v2 的信号,判断何时该说、该停、该等
  • API 架构:三种接入方式 — REST(完整请求)、Streaming SSE(渐进式)、WebSocket + WebRTC(实时双向)
  • SDK:Python / JavaScript / Swift / Kotlin
  • 输出格式:MP3 / PCM / WAV / OPUS / u-law(电话场景)
  • 合规:SOC 2, HIPAA, GDPR,支持 EU 数据驻留和 Zero Retention

核心功能怎么实现的

说白了就是两件事合在一起:

  1. 让模型"听懂"情绪:Scribe v2 不只做语音转文字,还分析你说话的方式——语速、音高、停顿模式——来推断你是着急、生气还是开心
  2. 让输出"带着"情绪:v3 Conversational 不是一句一句独立生成,而是保持整段对话的情感上下文。还能通过 [laughs][whispers][sighs] 这样的 expressive tags 精确控制

一个很聪明的设计:你可以在 system prompt 里定义情绪规则("当用户语气焦躁时,用更慢更柔和的语调回应"),也可以让 LLM 自己往输出里插 expressive tags。

开源情况

  • ElevenLabs 不开源,纯云端 API

  • 开源替代品

    • Chatterbox (MIT, Resemble AI) — 盲测中 63.8% 听众偏好它而非 ElevenLabs,可商用
    • Fish Audio Open Audio S1-mini — CC-BY-NC,不可商用但可本地跑
    • Kokoro (Apache) — 可商用
    • Coqui TTS — 开源语音克隆
  • 自己做难度:高。单纯 TTS 可以用开源方案,但"实时情绪感知 + 情感调节 + 低延迟 turn-taking"这套组合拳,目前开源社区还没有完整方案,预计 6-12 人月。

商业模式

  • 变现方式:按用量付费 API
  • 定价:$0.08/分钟(TTS 按字符计费,STT 按分钟计费)
  • 2025 年 ARR:$3.3 亿,同比增长 175%
  • 客户量:41% Fortune 500,1000+ 企业客户

巨头风险

这个赛道巨头已经在场了:

  • Google 有 Cloud TTS + Gemini 语音能力
  • OpenAI 有 Advanced Voice Mode
  • Amazon 有 Polly + Alexa 技术栈
  • 微软 有 Azure Speech + Copilot

但 ElevenLabs 的护城河在于:语音质量仍然是公认的天花板,加上 $110 亿估值和 $7.8 亿融资。短期内不会被替代,但长期巨头跟进是确定的。开源社区(特别是 Chatterbox)正在快速追赶英语质量,但多语言和情感控制仍有差距。


给产品经理

痛点分析

  • 解决什么问题:AI 客服接到愤怒客户的电话时,用平淡的语调回应只会火上浇油。Expressive Mode 让 AI 能"察言观色",用合适的语气安抚、引导、解决问题
  • 痛点有多痛:高频 + 刚需。每个有呼叫中心的企业都面临这个问题。一次糟糕的 AI 客服体验可能直接丢掉一个客户

用户画像

  • 企业客服负责人:想用 AI 降成本但又怕用户体验下降
  • 语音产品开发者:做电话机器人、语音助手需要更自然的交互
  • 多语言业务:需要在 70+ 种语言中保持自然的语音体验
  • 使用场景:客服热线、催收电话、预约确认、售后回访、多语言导购

功能拆解

功能类型说明
实时情绪感知核心通过 Scribe v2 分析语音信号推断用户情绪
上下文感知语气调节核心v3 Conversational 保持整段对话的情感连贯性
Expressive Tags核心[laughs] [whispers] [sighs] 等精确情绪控制
System Prompt 情绪规则核心可定义品牌语气和合规要求
70+ 语言支持锦上添花多语言情感表达(质量因语言而异)
Turn-taking 优化核心减少打断,更准确的说话时机判断

竞品差异

vsExpressive ModeFish Audio S1ChatterboxPlayHT
核心差异实时情绪感知+调节情绪标签 (Emotion tags)开源高质量庞大声音库
价格$0.08/min$9.99/月免费(MIT)付费
语言70+8较少142
自托管是(mini版)
商用受限(CC-BY-NC)

可借鉴的点

  1. 情绪感知作为基础能力:不是"加了个功能",而是重新定义了语音 Agent 的基线体验。任何做语音产品的团队都应该思考"情绪"这个维度
  2. Expressive Tags 的设计:让 LLM 通过文本标签控制语音情感,这个接口设计很优雅,降低了集成复杂度
  3. System Prompt 情绪规则:把品牌语气和合规要求通过 prompt 实现,不需要额外训练模型

给科技博主

创始人故事

  • Mati Staniszewski (CEO):波兰华沙出生,伦敦帝国理工学院数学一等荣誉毕业,先后在 Opera Software (商业智能)、BlackRock (产品开发)、Palantir (部署策略师,4年) 工作
  • Piotr Dabkowski (联创/研究负责人):格但斯克出生,牛津工程学士 + 剑桥高级计算机科学 MPhil,NeurIPS 2017 论文作者
  • 两人在华沙的哥白尼高中相识,15 年老友
  • 创业动机:受够了波兰电影只有一个男声旁白覆盖整部片子的糟糕配音体验。"我们想让每种语言都能有原声级别的配音"
  • 早期挣扎:被 30-50 个投资人拒绝。"这个市场存在吗?两个欧洲年轻人怎么和科技巨头竞争?" 最终以 $9M 估值融了 $2M,卖出 11% 股权
  • 关键转折:原本做配音(dubbing),但 YouTuber 对配音兴趣不大,对 TTS 生成工具热情很高,于是果断转型

争议点/讨论角度

  • "通过图灵测试的客服"是好事吗? — Luke Harries (ElevenLabs 增长负责人) 在采访中说 Agent 正在"通过图灵测试"。这引发了一个伦理问题:当 AI 客服听起来完全像真人,消费者有没有权利知道自己在和 AI 说话?
  • 开源正在追赶 — Chatterbox 在盲测中已经打败了 ElevenLabs(63.8% 偏好率)。ElevenLabs 的护城河到底有多深?
  • $110 亿估值合理吗? — 2025 年 ARR $3.3 亿,33x ARR 的估值在 AI 公司中算高还是低?

热度数据

  • PH 上:票数仅 1(几乎没有 PH 社区关注,可能是因为不是新产品而是功能更新)
  • Twitter/X 上:官方推文 1100 万播放, 2297 赞。CEO Mati 的 live demo 推文 2095 赞。说明真正的讨论在 Twitter 而非 PH
  • 发布时机:2 月 10 日发布,2 月 4 日刚宣布 $5 亿融资。产品发布和融资宣传打了组合拳

内容建议

  • 适合写的角度:"AI 客服终于学会了察言观色" — 从人类情感交互的角度切入,不只是技术评测
  • 蹭热点机会:ElevenLabs IPO 准备中,任何关于它的深度内容都有长尾流量

给早期采用者

定价分析

层级价格包含功能够用吗?
Free$0少量字符额度试试看够了,跑业务不够
Starter$5/月30,000 字符个人小项目
Scale$22/月100,000 字符轻度使用
Business$99/月500,000 字符中等业务量
Enterprise定制无限 + SLA大规模部署
Grants免费创业公司专属额度早期创业公司首选

注意:$0.08/分钟听起来不多,但呼叫中心每天几百通电话,费用上去很快。而且额度 (credits) 不滚存。

上手指南

  • 上手时间:15 分钟可以跑通第一个 demo
  • 学习曲线:低(如果你用过任何 TTS API)
  • 步骤
    1. 注册 ElevenLabs 账号,获取 API Key
    2. 在 Agent 配置面板,选择 V3 Conversational 作为 TTS 模型
    3. Expressive Mode 默认启用,无需额外配置
    4. 在 system prompt 中添加情绪规则(可选但推荐)
    5. 测试、迭代 prompt 直到语气符合品牌需求

坑和吐槽

  1. Expressive tags 只管 4-5 个词:你写了 [whispers],它只低语一小段就恢复正常。如果要长段低语,得反复加 tag
  2. Professional Voice Clones (PVC) 不兼容:如果你花钱做了专业克隆声音,切到 v3 Conversational 后声音可能完全不像原来的
  3. 跨 session 一致性:同一个声音在不同通话里可能有微妙差异,对品牌一致性有要求的要注意
  4. 非英语质量参差:70+ 语言听起来很美,但实际上英语之外的质量差异较大

安全和隐私

  • 数据加密:传输中和静态都加密
  • 合规认证:SOC 2, HIPAA, GDPR
  • EU 数据驻留:支持指定数据存储在欧盟
  • Zero Retention 模式:可以选择不存储任何音频数据

替代方案

替代品优势劣势
Chatterbox (MIT)免费、可商用、盲测胜出语言少、没有 Agent 框架
Fish Audio S1-mini便宜、可本地跑CC-BY-NC 不可商用
OpenAI Advanced Voice端到端语音模型、延迟低不专注 Agent 场景
PlayHT142 语言、600+ 声音情感控制不如 ElevenLabs

给投资人

市场分析

  • 对话式 AI 市场:2025 年 $148 亿 → 2034 年 $825 亿,CAGR 21%
  • 语音 AI Agent 细分:2024 年 $24 亿 → 2034 年 $475 亿,CAGR 34.8%
  • AI 语音生成:2024 年 $30 亿 → 2030 年 $204 亿,CAGR 37.1%
  • 驱动因素:80% 企业计划 2026 年前集成 AI 语音到客服;AI 客服可降低 20-30% 运营成本

竞争格局

层级玩家定位
头部ElevenLabs, Google, Amazon, Microsoft, OpenAI全栈语音 AI 平台
腰部PlayHT, Resemble AI, LMNT, Deepgram垂直场景或特定能力
开源挑战者Chatterbox, Fish Audio, Kokoro, Coqui免费/低成本替代

时机 (Timing) 分析

  • 为什么是现在:三个因素同时成熟 — 1) LLM 足够聪明可以理解情感上下文;2) TTS 延迟降到 <100ms 可以做实时对话;3) 企业对 AI 客服的接受度从"试试看"变成"必须有"
  • 技术成熟度:英语场景已经生产就绪 (production-ready),多语言还在追赶
  • 市场准备度:高。德国电信 (Deutsche Telekom), Klarna, Revolut 等已经在生产环境使用

团队背景

  • CEO Mati Staniszewski:帝国理工数学 + Palantir 4 年,入选 TIME 2025 AI 100 人
  • CTO Piotr Dabkowski:牛津 + 剑桥,NeurIPS 论文作者
  • 团队规模:400 人,20 个 5-10 人微团队
  • 全球布局:14 个城市的办公室
  • 管理风格:CEO 亲自面试每一个人(即使公司已经 $2 亿收入)

融资情况

轮次金额估值时间领投
Pre-seed$2M$9M2023初
Series B$80M$1.1B2024.01a16z, Nat Friedman
Series C$180M$3.3B2025.01ICONIQ, a16z
Tender Offer$100M$6.6B2025.09Sequoia, ICONIQ
Series D$500M$11B2026.02Sequoia
累计$781M
  • 2025 ARR:$3.3 亿,同比增长 175%
  • IPO 计划:CEO 公开表示正在"建设通往 IPO 的道路"

结论

Expressive Mode 不是一个新产品,而是语音 AI 行业的一个分水岭。 它把"AI 能说话"的能力提升到"AI 会说话"。对于做语音交互的团队来说,这重新定义了用户体验的基线——你的竞品如果上了这个,你没上,用户会明显感觉到差距。

用户类型建议
开发者值得关注。如果做语音产品,试用 API 了解能力边界;如果想自建,关注 Chatterbox 等开源方案追赶进度
产品经理强烈推荐了解。"情绪感知"会成为语音产品的标配能力,现在开始规划不算早
博主好素材。创始人故事(波兰配音 → $110 亿公司)+ AI 伦理争议(通过图灵测试的客服)都是好角度
早期采用者如果有语音客服需求,直接试。免费额度够体验,Grants 适合创业公司。注意 PVC 不兼容和额度消耗
投资人Voice AI Agent 是 CAGR 35% 的赛道,ElevenLabs 是当之无愧的领头羊。$110 亿估值 (33x ARR) 不便宜,但增速和客户质量撑得住

资源链接

资源链接
官网https://elevenlabs.io/agents/expressive-mode
博客公告https://elevenlabs.io/blog/introducing-expressive-mode
API 文档https://elevenlabs.io/docs/eleven-agents/customization/voice/expressive-mode
定价https://elevenlabs.io/pricing
Twitter Demohttps://x.com/elevenlabsio/status/2021237336793657447
Series D 公告https://elevenlabs.io/blog/series-d

2026-03-03 | Trend-Tracker v7.3

一句话判断

Expressive Mode 是语音 AI 行业的分水岭,将“情绪”引入实时交互,标志着 AI 客服进入生产力爆发期,是相关从业者必须关注的标杆产品。

这篇分析对你有帮助吗?

常见问题

关于 Expressive Mode for ElevenAgents 的常见问题

ElevenLabs 为其语音 Agent 推出的情感模式,使 AI 能根据用户情绪实时调整语气、语调和节奏。

Expressive Mode for ElevenAgents 的主要功能包括:实时情绪感知、上下文感知语气调节、Expressive Tags 精确控制、Turn-taking 说话时机优化。

$0.08/分钟;提供从免费到 $99+/月的多种订阅层级,Credits 不滚存。

企业客服团队、语音 AI 开发者、呼叫中心负责人及 ElevenLabs 现有 API 客户。

Expressive Mode for ElevenAgents 的主要竞品包括:Fish Audio S1, Chatterbox, PlayHT, OpenAI Advanced Voice Mode。

数据来源: ProductHunt2026年3月3日
最后更新: