Fish Audio S2:开源 TTS 的"情绪革命",ElevenLabs 的最强挑战者
2026-03-10 | ProductHunt · 官网 · GitHub
30秒快速判断
这App干嘛的:一个开源的 AI 语音合成模型,你在文本里写 [whisper]、[laugh]、[sigh],它就真的小声说话、笑、叹气。支持 80+ 语言,10 秒参考音频就能克隆你的声音。
值不值得关注:值得。这是目前 benchmark 跑分最强的 TTS 模型,打赢了 OpenAI gpt-4o-mini-tts、字节 Seed-TTS、MiniMax Speech 等一众闭源大厂。更关键的是——API 价格只有 ElevenLabs 的 1/4。如果你做播客、有声书、游戏配音、AI 客服,这个产品直接影响你的成本结构。
与我有关三问
与我有关吗?
目标用户是谁:
- 做播客/有声书的内容创作者
- 需要多语言配音的 YouTuber
- 做 AI 语音助手/客服的开发者
- 游戏开发中需要 NPC 对话的团队
- 做教育内容的公司
我是吗:如果你做过任何涉及"把文字变成语音"的事情——翻译配音、播客生产、语音助手、游戏角色——你就是目标用户。
什么场景会用到:
- 每天要生产多语言播客内容 → 用 S2 的 API 批量生成
- 想做一个有情感的 AI 客服 → 用 inline tags 控制语气
- 游戏里需要多角色对话 → 一次生成多角色,不用分开录
- 不想付 ElevenLabs $99/月 → S2 Pro 只要 $75/月还多给 7 倍时长
对我有用吗?
| 维度 | 收益 | 代价 |
|---|---|---|
| 时间 | 一次生成多角色对话,省去分别录制/合成 | 学习 inline tags 语法约 30 分钟 |
| 金钱 | API 比 ElevenLabs 便宜 75%+;自部署则接近免费 | Plus $11/月起步,自部署需 24GB GPU |
| 精力 | SDK 3 行代码就能生成语音 | 自部署需要折腾 CUDA/SGLang |
ROI 判断:如果你现在用 ElevenLabs 且月消费超过 $50,立刻切过来能省大钱。如果你只是偶尔用 TTS,免费版 7 分钟/月够体验。
喜闻乐见吗?
爽点在哪:
- 情绪控制是魔法:写 [whisper] 它真的压低声音,写 [sigh] 它真的叹气,不是简单变调
- 多角色一次生成:不用为每个角色分别上传参考音频,一次搞定整段对话
- 80+ 语言零配置:不需要音素标注,直接扔中文/日语/阿拉伯语进去就能说
"哇"的瞬间:
"我输入 [laughing nervously],AI 真的笑了。这一刻我意识到语音 AI 长大了。" — @anujcodes_21
用户真实评价:
"最具表现力的开放权重 TTS 模型,voice cloning 在阿拉伯语、德语和英语都跑得飞起" — @fahdmirza
"AI voice cloning just got dangerous" — @hasantoxr
"音质清晰和表达自然度在 TTS 里算是可以的,完全可以应对实时对话、多角色故事、长文本朗读" — @aigclink
给独立开发者
技术栈
- 模型架构: Dual-AR(双自回归),基于 Qwen3 backbone
- Slow AR:4B 参数,沿时间轴预测语义 codebook
- Fast AR:400M 参数,每个时间步生成 9 个 residual codebooks
- 音频编码: RVQ-based codec,10 codebooks,~21 Hz frame rate
- 后训练: GRPO(Group Relative Policy Optimization)强化学习对齐
- 推理引擎: SGLang(继承 continuous batching、paged KV cache、CUDA graph replay)
- 训练数据: 10M+ 小时音频,80+ 语言
- SDK: Python
fish-audio-sdk/ Node.jsfish-audio-sdk
核心功能实现
说白了,S2 的核心创新在于把"情绪控制"做成了自然语言指令,而不是固定的 SSML 标签。你可以在文本任意位置插入 [whisper]、[excited]、[pitch up] 这样的描述,模型会在那个位置改变语音风格。这比 Google/Azure 的 <prosody rate="slow"> 灵活一百倍。
多角色生成也很聪明——用 <|speaker:i|> token 标记不同说话人,一次推理搞定整段对话,不用分开跑。
开源情况
- 代码: Apache 2.0(真开源)
- 模型权重: Fish Audio Research License(研究免费,商用需授权)
- 坑来了: Twitter 社区笔记指出这不算真正的"开源",更准确叫"source-available"
- GitHub: fishaudio/fish-speech
- HuggingFace: fishaudio/s2-pro
- 技术报告: arxiv 2603.08823
- 类似开源项目: Coqui TTS(已停更)、StyleTTS2、XTTS
- 自己做难度: 极高。4.4B 参数模型 + 10M 小时训练数据,没有大规模 GPU 集群基本不可能复现
商业模式
- 变现方式: API 按用量订阅
- 定价: Free $0(7分钟/月)→ Plus $11/月(200分钟)→ Pro $75/月(27小时)
- MAU: 420,000+(2025 年中)
- ARR: $5M+(2025 年 4 月)
- 活跃开发者: 20,000+
巨头风险
中等偏高。OpenAI 已有 gpt-4o-mini-tts,Google 有 Cloud TTS,微软有 Azure Speech。但 S2 在 benchmark 上打赢了这些大厂,而且定价策略更激进。真正的风险不是被做掉,而是 ElevenLabs 跟进降价。不过 Fish Audio 的开源社区生态(So-VITS-SVC、GPT-SoVITS 等项目的积累)是护城河。
给产品经理
痛点分析
- 解决什么问题: 现有 TTS 两个极端——便宜的(Google/Azure)不够有感情,有感情的(ElevenLabs)太贵
- 痛点有多痛: 高频刚需。任何需要"让 AI 说话"的场景都需要 TTS,而且用户越来越不能忍受机器人腔调
用户画像
- 主力用户: 开发者(集成进自己的产品)、内容创作者(播客/有声书)
- 次要用户: 企业客户(客服/IVR)、游戏开发者
- 使用场景: 批量内容生产、实时对话 AI、多语言本地化配音
功能拆解
| 功能 | 类型 | 说明 |
|---|---|---|
| Inline Tags 情绪控制 | 核心 | 自然语言指令控制语气,15000+ 种描述 |
| Zero-Shot 声音克隆 | 核心 | 10-30 秒参考音频克隆声音 |
| Multi-Speaker 多角色 | 核心 | 单次生成多人对话 |
| 80+ 语言支持 | 核心 | 无需音素预处理 |
| <150ms 延迟 | 锦上添花 | 实时对话场景需要 |
| 自部署 | 锦上添花 | 对数据敏感的企业需要 |
竞品差异
| 维度 | Fish Audio S2 | ElevenLabs | Google Cloud TTS | OpenAI TTS |
|---|---|---|---|---|
| 核心差异 | 自然语言情绪控制 | 成熟的声音市场生态 | 企业级稳定性 | GPT 生态集成 |
| 价格 | Pro $75/月 27h | Pro $99/月 500k credits | 按字符计费 | 按 token 计费 |
| 开源 | 代码开源/权重受限 | 完全闭源 | 完全闭源 | 完全闭源 |
| 优势 | 便宜 + 表现力 + 开源 | 生态成熟 + 声音多 | 稳定可靠 | 与 GPT 无缝衔接 |
| 劣势 | 许可证争议,自部署吃 GPU | 贵 | 表现力弱 | 表现力一般 |
可借鉴的点
- Inline Tags 设计: 把控制指令嵌入文本本身,而不是用另一套标记语言,大大降低了使用门槛
- "先开源建生态,再 API 变现" 的路径:从 So-VITS-SVC 到 GPT-SoVITS 到 Fish Speech,一路开源积累用户
- Benchmark 驱动的市场叙事: 不是说"我们很好",而是拿出数据证明"我们比 OpenAI 和 Google 都好"
给科技博主
创始人故事
- Shijia Liao(廖世嘉),网名 Leng Yue(冷月),Gen Z
- 前 NVIDIA 研究员,在 AI 语音领域耕耘 7 年+
- 开源界名人——So-VITS-SVC、GPT-SoVITS、Bert-VITS2 等爆款项目的作者/核心贡献者
- 离开 NVIDIA 后,用家里的 4090 GPU 开始做 Fish Audio
- 4 人 Gen Z 创始团队,从 $400K ARR 到 $5M ARR 只用了 3 个月
- 被 HF0 孵化器接受(YC 级别的 AI 专项孵化器,$1M SAFE for 5%)
故事角度: 一个 Gen Z 开源大佬离开 NVIDIA,在自己的 4090 上做出了打败 OpenAI 和 Google 的 TTS 模型。这本身就是一个好故事。
争议点/讨论角度
- "伪开源"争议: 代码 Apache 但权重非商用许可,Twitter 社区笔记标注为"误导"
- AI 声音伦理: 10 秒克隆任何人声音的能力引发 deepfake 担忧
- 中国团队 vs 美国注册: 公司注册在特拉华,但团队背景和开源社区根基在中国
- 开源 vs 商业化的张力: 如何在"让所有人用"和"赚钱养团队"之间找平衡
热度数据
- ProductHunt: 569 票
- Twitter: 多位万粉 KOL 转发(Fahd Mirza、Hasan Toor 等)
- LMSYS 官方发推祝贺(LLM 评测领域最权威组织之一)
- arxiv 技术报告: 学术界关注
- Reddit r/LocalLLaMA: 高热度讨论
内容建议
- 适合写的角度: "从 4090 到打败 OpenAI:一个 Gen Z 开源 TTS 的创业故事"
- 蹭热点机会: AI 语音克隆安全讨论、开源 vs 闭源 AI 的路线之争
- 视频方向: 实测对比 ElevenLabs vs Fish Audio S2,让观众听区别
给早期采用者
定价分析
| 层级 | 价格 | 包含功能 | 够用吗? |
|---|---|---|---|
| Free | $0 | 7 分钟/月,8000 credits,仅个人使用 | 体验够,生产不够 |
| Plus | $11/月 | 200 分钟,API 访问,商用授权 | 个人创作者够用 |
| Pro | $75/月 | 27 小时,优先级,30000 字符/次 | 中等产量的团队够用 |
和 ElevenLabs 比: ElevenLabs Pro $99/月只给 500k credits(约 100 分钟高质量语音),Fish Audio Pro $75/月给 27 小时。性价比碾压。
上手指南
- 上手时间: 5 分钟(API)/ 30 分钟(自部署)
- 学习曲线: 低(API)/ 中高(自部署)
- 步骤:
- 去 fish.audio 注册账号
- 创建应用获取 API Key
pip install fish-audio-sdk- 三行代码生成语音:
from fishaudio import FishAudio
client = FishAudio(api_key="your_key")
audio = client.tts.convert(text="Hello [whisper] this is a secret [/whisper]")
坑和吐槽
- GPU 门槛高: 自部署至少 12GB VRAM,实际推荐 24GB。RTX 3060 跑起来 1 分钟音频要等 15 秒
- "开源"有水分: 模型权重商用要另买许可,别以为下载就能拿去做产品
- 部分英语声音没 ElevenLabs 自然: Benchmark 赢了,但人耳感受不完全一样
- 过度标记会打架: [whisper] 和 [excited] 放一起,模型可能懵——别贪多
- 免费版限制严格: 7 分钟/月,做个 demo 可以,干活不行
安全和隐私
- 数据存储: API 方式走云端(fish.audio 服务器);自部署完全本地
- 隐私政策: 公司注册在美国特拉华州,遵守美国法律
- 声音克隆风险: 10 秒就能克隆声音,平台有使用条款限制但技术上无法完全防滥用
替代方案
| 替代品 | 优势 | 劣势 |
|---|---|---|
| ElevenLabs | 生态成熟,声音质量稳定,市场大 | 贵 3-4 倍 |
| OpenAI TTS | 与 GPT 生态集成好 | 表现力不如 S2 |
| StyleTTS2 | 完全免费开源 | 性能不如 S2 |
| Bark | 免费,支持非语音音效 | 质量不如 S2 |
| XTTS | Coqui 出品,社区强 | 项目已停更 |
给投资人
市场分析
- 赛道规模: 2025 年全球 TTS 市场 ~$4B,2030 年预计 $7.6-8.3B
- 增长率: CAGR 12-16%(保守)到 23%(乐观)
- 驱动因素: AI Agent 需要说话、播客/有声书爆发、无障碍需求、汽车语音交互
竞争格局
| 层级 | 玩家 | 定位 |
|---|---|---|
| 头部 | Microsoft、Google、ElevenLabs | 云 TTS 服务 |
| 腰部 | OpenAI、MiniMax、ByteDance (Seed-TTS) | AI 原生 TTS |
| 新进入者 | Fish Audio | 开源社区 + API 服务 |
Fish Audio 的位置很有意思——用开源卡位,用 API 变现。类似当年 Hugging Face 在 NLP 模型上的路径。
Timing 分析
- 为什么是现在: AI Agent 浪潮催生了对"能说话的 AI"的刚需;大模型推理成本下降使 4.4B 参数模型可以商业化部署
- 技术成熟度: 从 benchmark 看已经超过闭源方案,但生产环境稳定性还需时间验证
- 市场准备度: ElevenLabs 已教育好市场,用户知道 AI 语音能做什么,但嫌贵——Fish Audio 正好接住这波需求
团队背景
- 创始人: Shijia Liao(廖世嘉),网名 Leng Yue(冷月),Gen Z
- 核心团队: 4 人 Gen Z 创始团队
- 过往成绩: So-VITS-SVC、GPT-SoVITS、Bert-VITS2 等开源项目在 AI 语音合成社区影响力极大
- 首席科学家: 前 NVIDIA + 马里兰大学研究员
融资情况
- 已知融资: HF0 孵化器($1M uncapped SAFE for 5%)+ 至少一轮 pre-HF0 融资
- 投资人: 具体机构未公开
- ARR: $5M+(2025 年 4 月)
- MAU: 420,000+
结论
Fish Audio S2 是 2026 年 3 月最重要的 AI 语音发布之一。它用开源代码 + 顶级 benchmark + 激进定价,正面挑战了 ElevenLabs 的统治地位。
| 用户类型 | 建议 |
|---|---|
| 开发者 | ✅ 强烈推荐。技术领先,API 便宜,SDK 好用。注意模型权重商用许可 |
| 产品经理 | ✅ 推荐关注。Inline Tags 情绪控制是值得借鉴的产品设计,定价策略也很聪明 |
| 博主 | ✅ 值得写。Gen Z 创始人打败大厂的故事 + 开源争议 + AI 伦理,素材丰富 |
| 早期采用者 | ✅ 推荐试用。从免费版开始体验,如果做内容 $11/月的 Plus 就够用 |
| 投资人 | ✅ 值得关注。$4B 赛道、$5M ARR、420K MAU、技术领先,增长飞轮已转起来 |
资源链接
| 资源 | 链接 |
|---|---|
| 官网 | fish.audio |
| S2 产品页 | fish.audio/s2 |
| GitHub | fishaudio/fish-speech |
| HuggingFace | fishaudio/s2-pro |
| 技术报告 | arxiv 2603.08823 |
| API 文档 | docs.fish.audio |
| Python SDK | fishaudio/fish-audio-python |
| ProductHunt | producthunt.com/products/fish-audio-s2 |
| @FishAudio | |
| 创始人 LinkedIn | Shijia Liao |
| 博客 | fish.audio/blog |
2026-03-16 | Trend-Tracker v7.3