Fish Audio S2 是什么？

真正具有表现力的 AI 语音

Fish Audio S2 有哪些主要功能？

Fish Audio S2 的主要功能包括：Inline Tags 自然语言情绪控制、Zero-Shot 10秒声音克隆、单次推理多角色对话生成、80+ 多语言支持。

Fish Audio S2 如何收费？

Free（7分钟/月）、Plus（$11/月，200分钟）、Pro（$75/月，27小时）。

Fish Audio S2 适合谁使用？

播客/有声书创作者、YouTuber、AI 客服开发者、游戏开发团队、教育内容公司。

Fish Audio S2 有哪些竞品？

Fish Audio S2 的主要竞品包括：ElevenLabs, OpenAI TTS, Google Cloud TTS, MiniMax Speech, Seed-TTS。。

Fish Audio S2：开源 TTS 的"情绪革命"，ElevenLabs 的最强挑战者

Q: Fish Audio S2 是什么？

真正具有表现力的 AI 语音

2026-03-10 | ProductHunt · 官网 · GitHub

30秒快速判断

这App干嘛的：一个开源的 AI 语音合成模型，你在文本里写 [whisper]、[laugh]、[sigh]，它就真的小声说话、笑、叹气。支持 80+ 语言，10 秒参考音频就能克隆你的声音。

值不值得关注：值得。这是目前 benchmark 跑分最强的 TTS 模型，打赢了 OpenAI gpt-4o-mini-tts、字节 Seed-TTS、MiniMax Speech 等一众闭源大厂。更关键的是——API 价格只有 ElevenLabs 的 1/4。如果你做播客、有声书、游戏配音、AI 客服，这个产品直接影响你的成本结构。

与我有关三问

与我有关吗？

目标用户是谁：

做播客/有声书的内容创作者
需要多语言配音的 YouTuber
做 AI 语音助手/客服的开发者
游戏开发中需要 NPC 对话的团队
做教育内容的公司

我是吗：如果你做过任何涉及"把文字变成语音"的事情——翻译配音、播客生产、语音助手、游戏角色——你就是目标用户。

什么场景会用到：

每天要生产多语言播客内容 → 用 S2 的 API 批量生成
想做一个有情感的 AI 客服 → 用 inline tags 控制语气
游戏里需要多角色对话 → 一次生成多角色，不用分开录
不想付 ElevenLabs $99/月 → S2 Pro 只要 $75/月还多给 7 倍时长

对我有用吗？

维度	收益	代价
时间	一次生成多角色对话，省去分别录制/合成	学习 inline tags 语法约 30 分钟
金钱	API 比 ElevenLabs 便宜 75%+；自部署则接近免费	Plus $11/月起步，自部署需 24GB GPU
精力	SDK 3 行代码就能生成语音	自部署需要折腾 CUDA/SGLang

ROI 判断：如果你现在用 ElevenLabs 且月消费超过 $50，立刻切过来能省大钱。如果你只是偶尔用 TTS，免费版 7 分钟/月够体验。

喜闻乐见吗？

爽点在哪：

情绪控制是魔法：写 [whisper] 它真的压低声音，写 [sigh] 它真的叹气，不是简单变调
多角色一次生成：不用为每个角色分别上传参考音频，一次搞定整段对话
80+ 语言零配置：不需要音素标注，直接扔中文/日语/阿拉伯语进去就能说

"哇"的瞬间：

"我输入 [laughing nervously]，AI 真的笑了。这一刻我意识到语音 AI 长大了。" — @anujcodes_21

用户真实评价：

"最具表现力的开放权重 TTS 模型，voice cloning 在阿拉伯语、德语和英语都跑得飞起" — @fahdmirza

"AI voice cloning just got dangerous" — @hasantoxr

"音质清晰和表达自然度在 TTS 里算是可以的，完全可以应对实时对话、多角色故事、长文本朗读" — @aigclink

给独立开发者

技术栈

模型架构: Dual-AR（双自回归），基于 Qwen3 backbone
- Slow AR：4B 参数，沿时间轴预测语义 codebook
- Fast AR：400M 参数，每个时间步生成 9 个 residual codebooks
音频编码: RVQ-based codec，10 codebooks，~21 Hz frame rate
后训练: GRPO（Group Relative Policy Optimization）强化学习对齐
推理引擎: SGLang（继承 continuous batching、paged KV cache、CUDA graph replay）
训练数据: 10M+ 小时音频，80+ 语言
SDK: Python fish-audio-sdk / Node.js fish-audio-sdk

核心功能实现

说白了，S2 的核心创新在于把"情绪控制"做成了自然语言指令，而不是固定的 SSML 标签。你可以在文本任意位置插入 [whisper]、[excited]、[pitch up] 这样的描述，模型会在那个位置改变语音风格。这比 Google/Azure 的 <prosody rate="slow"> 灵活一百倍。

多角色生成也很聪明——用 <|speaker:i|> token 标记不同说话人，一次推理搞定整段对话，不用分开跑。

开源情况

代码: Apache 2.0（真开源）
模型权重: Fish Audio Research License（研究免费，商用需授权）
坑来了: Twitter 社区笔记指出这不算真正的"开源"，更准确叫"source-available"
GitHub: fishaudio/fish-speech
HuggingFace: fishaudio/s2-pro
技术报告: arxiv 2603.08823
类似开源项目: Coqui TTS（已停更）、StyleTTS2、XTTS
自己做难度: 极高。4.4B 参数模型 + 10M 小时训练数据，没有大规模 GPU 集群基本不可能复现

商业模式

变现方式: API 按用量订阅
定价: Free $0（7分钟/月）→ Plus $11/月（200分钟）→ Pro $75/月（27小时）
MAU: 420,000+（2025 年中）
ARR: $5M+（2025 年 4 月）
活跃开发者: 20,000+

巨头风险

中等偏高。OpenAI 已有 gpt-4o-mini-tts，Google 有 Cloud TTS，微软有 Azure Speech。但 S2 在 benchmark 上打赢了这些大厂，而且定价策略更激进。真正的风险不是被做掉，而是 ElevenLabs 跟进降价。不过 Fish Audio 的开源社区生态（So-VITS-SVC、GPT-SoVITS 等项目的积累）是护城河。

给产品经理

痛点分析

解决什么问题: 现有 TTS 两个极端——便宜的（Google/Azure）不够有感情，有感情的（ElevenLabs）太贵
痛点有多痛: 高频刚需。任何需要"让 AI 说话"的场景都需要 TTS，而且用户越来越不能忍受机器人腔调

用户画像

主力用户: 开发者（集成进自己的产品）、内容创作者（播客/有声书）
次要用户: 企业客户（客服/IVR）、游戏开发者
使用场景: 批量内容生产、实时对话 AI、多语言本地化配音

功能拆解

功能	类型	说明
Inline Tags 情绪控制	核心	自然语言指令控制语气，15000+ 种描述
Zero-Shot 声音克隆	核心	10-30 秒参考音频克隆声音
Multi-Speaker 多角色	核心	单次生成多人对话
80+ 语言支持	核心	无需音素预处理
<150ms 延迟	锦上添花	实时对话场景需要
自部署	锦上添花	对数据敏感的企业需要

竞品差异

维度	Fish Audio S2	ElevenLabs	Google Cloud TTS	OpenAI TTS
核心差异	自然语言情绪控制	成熟的声音市场生态	企业级稳定性	GPT 生态集成
价格	Pro $75/月 27h	Pro $99/月 500k credits	按字符计费	按 token 计费
开源	代码开源/权重受限	完全闭源	完全闭源	完全闭源
优势	便宜 + 表现力 + 开源	生态成熟 + 声音多	稳定可靠	与 GPT 无缝衔接
劣势	许可证争议，自部署吃 GPU	贵	表现力弱	表现力一般

可借鉴的点

Inline Tags 设计: 把控制指令嵌入文本本身，而不是用另一套标记语言，大大降低了使用门槛
"先开源建生态，再 API 变现" 的路径：从 So-VITS-SVC 到 GPT-SoVITS 到 Fish Speech，一路开源积累用户
Benchmark 驱动的市场叙事: 不是说"我们很好"，而是拿出数据证明"我们比 OpenAI 和 Google 都好"

给科技博主

创始人故事

Shijia Liao（廖世嘉），网名 Leng Yue（冷月），Gen Z
前 NVIDIA 研究员，在 AI 语音领域耕耘 7 年+
开源界名人——So-VITS-SVC、GPT-SoVITS、Bert-VITS2 等爆款项目的作者/核心贡献者
离开 NVIDIA 后，用家里的 4090 GPU 开始做 Fish Audio
4 人 Gen Z 创始团队，从 $400K ARR 到 $5M ARR 只用了 3 个月
被 HF0 孵化器接受（YC 级别的 AI 专项孵化器，$1M SAFE for 5%）

故事角度: 一个 Gen Z 开源大佬离开 NVIDIA，在自己的 4090 上做出了打败 OpenAI 和 Google 的 TTS 模型。这本身就是一个好故事。

争议点/讨论角度

"伪开源"争议: 代码 Apache 但权重非商用许可，Twitter 社区笔记标注为"误导"
AI 声音伦理: 10 秒克隆任何人声音的能力引发 deepfake 担忧
中国团队 vs 美国注册: 公司注册在特拉华，但团队背景和开源社区根基在中国
开源 vs 商业化的张力: 如何在"让所有人用"和"赚钱养团队"之间找平衡

热度数据

ProductHunt: 569 票
Twitter: 多位万粉 KOL 转发（Fahd Mirza、Hasan Toor 等）
LMSYS 官方发推祝贺（LLM 评测领域最权威组织之一）
arxiv 技术报告: 学术界关注
Reddit r/LocalLLaMA: 高热度讨论

内容建议

适合写的角度: "从 4090 到打败 OpenAI：一个 Gen Z 开源 TTS 的创业故事"
蹭热点机会: AI 语音克隆安全讨论、开源 vs 闭源 AI 的路线之争
视频方向: 实测对比 ElevenLabs vs Fish Audio S2，让观众听区别

给早期采用者

定价分析

层级	价格	包含功能	够用吗？
Free	$0	7 分钟/月，8000 credits，仅个人使用	体验够，生产不够
Plus	$11/月	200 分钟，API 访问，商用授权	个人创作者够用
Pro	$75/月	27 小时，优先级，30000 字符/次	中等产量的团队够用

和 ElevenLabs 比: ElevenLabs Pro $99/月只给 500k credits（约 100 分钟高质量语音），Fish Audio Pro $75/月给 27 小时。性价比碾压。

上手指南

上手时间: 5 分钟（API）/ 30 分钟（自部署）
学习曲线: 低（API）/ 中高（自部署）
步骤:
1. 去 fish.audio 注册账号
2. 创建应用获取 API Key
3. pip install fish-audio-sdk
4. 三行代码生成语音：

from fishaudio import FishAudio
client = FishAudio(api_key="your_key")
audio = client.tts.convert(text="Hello [whisper] this is a secret [/whisper]")

坑和吐槽

GPU 门槛高: 自部署至少 12GB VRAM，实际推荐 24GB。RTX 3060 跑起来 1 分钟音频要等 15 秒
"开源"有水分: 模型权重商用要另买许可，别以为下载就能拿去做产品
部分英语声音没 ElevenLabs 自然: Benchmark 赢了，但人耳感受不完全一样
过度标记会打架: [whisper] 和 [excited] 放一起，模型可能懵——别贪多
免费版限制严格: 7 分钟/月，做个 demo 可以，干活不行

安全和隐私

数据存储: API 方式走云端（fish.audio 服务器）；自部署完全本地
隐私政策: 公司注册在美国特拉华州，遵守美国法律
声音克隆风险: 10 秒就能克隆声音，平台有使用条款限制但技术上无法完全防滥用

替代方案

替代品	优势	劣势
ElevenLabs	生态成熟，声音质量稳定，市场大	贵 3-4 倍
OpenAI TTS	与 GPT 生态集成好	表现力不如 S2
StyleTTS2	完全免费开源	性能不如 S2
Bark	免费，支持非语音音效	质量不如 S2
XTTS	Coqui 出品，社区强	项目已停更

给投资人

市场分析

赛道规模: 2025 年全球 TTS 市场 ~$4B，2030 年预计 $7.6-8.3B
增长率: CAGR 12-16%（保守）到 23%（乐观）
驱动因素: AI Agent 需要说话、播客/有声书爆发、无障碍需求、汽车语音交互

竞争格局

层级	玩家	定位
头部	Microsoft、Google、ElevenLabs	云 TTS 服务
腰部	OpenAI、MiniMax、ByteDance (Seed-TTS)	AI 原生 TTS
新进入者	Fish Audio	开源社区 + API 服务

Fish Audio 的位置很有意思——用开源卡位，用 API 变现。类似当年 Hugging Face 在 NLP 模型上的路径。

Timing 分析

为什么是现在: AI Agent 浪潮催生了对"能说话的 AI"的刚需；大模型推理成本下降使 4.4B 参数模型可以商业化部署
技术成熟度: 从 benchmark 看已经超过闭源方案，但生产环境稳定性还需时间验证
市场准备度: ElevenLabs 已教育好市场，用户知道 AI 语音能做什么，但嫌贵——Fish Audio 正好接住这波需求

团队背景

创始人: Shijia Liao（廖世嘉），网名 Leng Yue（冷月），Gen Z
核心团队: 4 人 Gen Z 创始团队
过往成绩: So-VITS-SVC、GPT-SoVITS、Bert-VITS2 等开源项目在 AI 语音合成社区影响力极大
首席科学家: 前 NVIDIA + 马里兰大学研究员

融资情况

已知融资: HF0 孵化器（$1M uncapped SAFE for 5%）+ 至少一轮 pre-HF0 融资
投资人: 具体机构未公开
ARR: $5M+（2025 年 4 月）
MAU: 420,000+

结论

Fish Audio S2 是 2026 年 3 月最重要的 AI 语音发布之一。它用开源代码 + 顶级 benchmark + 激进定价，正面挑战了 ElevenLabs 的统治地位。

用户类型	建议
开发者	✅ 强烈推荐。技术领先，API 便宜，SDK 好用。注意模型权重商用许可
产品经理	✅ 推荐关注。Inline Tags 情绪控制是值得借鉴的产品设计，定价策略也很聪明
博主	✅ 值得写。Gen Z 创始人打败大厂的故事 + 开源争议 + AI 伦理，素材丰富
早期采用者	✅ 推荐试用。从免费版开始体验，如果做内容 $11/月的 Plus 就够用
投资人	✅ 值得关注。$4B 赛道、$5M ARR、420K MAU、技术领先，增长飞轮已转起来

资源链接

资源	链接
官网	fish.audio
S2 产品页	fish.audio/s2
GitHub	fishaudio/fish-speech
HuggingFace	fishaudio/s2-pro
技术报告	arxiv 2603.08823
API 文档	docs.fish.audio
Python SDK	fishaudio/fish-audio-python
ProductHunt	producthunt.com/products/fish-audio-s2
Twitter	@FishAudio
创始人 LinkedIn	Shijia Liao
博客	fish.audio/blog

2026-03-16 | Trend-Tracker v7.3

Fish Audio S2