返回探索

Fish Audio S2

Text-to-Speech Software

真正具有表现力的 AI 语音

💡 Fish Audio 是目前最具表现力和情感张力的文本转语音(TTS)模型。它生成的语音栩栩如生,能以惊人的真实感捕捉情感、节奏和细微差别。通过 Fish Audio 的声音克隆功能,只需 10 秒音频就能完美复刻自然人声,并保留口音、语调和说话习惯。该项目由 So-VITS-SVC 和 Bert-VITS2 背后的开源大神团队倾力打造,旨在为每一个 AI 声音注入灵魂。

"它是 AI 界的“奥斯卡影帝”,不仅会说话,更懂怎么演戏,连细微的呼吸声都能精准拿捏。"

8/10

热度

9/10

实用

569

投票

产品画像
完整分析报告

Fish Audio S2:开源 TTS 的"情绪革命",ElevenLabs 的最强挑战者

2026-03-10 | ProductHunt · 官网 · GitHub


30秒快速判断

这App干嘛的:一个开源的 AI 语音合成模型,你在文本里写 [whisper]、[laugh]、[sigh],它就真的小声说话、笑、叹气。支持 80+ 语言,10 秒参考音频就能克隆你的声音。

值不值得关注:值得。这是目前 benchmark 跑分最强的 TTS 模型,打赢了 OpenAI gpt-4o-mini-tts、字节 Seed-TTS、MiniMax Speech 等一众闭源大厂。更关键的是——API 价格只有 ElevenLabs 的 1/4。如果你做播客、有声书、游戏配音、AI 客服,这个产品直接影响你的成本结构。


与我有关三问

与我有关吗?

目标用户是谁

  • 做播客/有声书的内容创作者
  • 需要多语言配音的 YouTuber
  • 做 AI 语音助手/客服的开发者
  • 游戏开发中需要 NPC 对话的团队
  • 做教育内容的公司

我是吗:如果你做过任何涉及"把文字变成语音"的事情——翻译配音、播客生产、语音助手、游戏角色——你就是目标用户。

什么场景会用到

  • 每天要生产多语言播客内容 → 用 S2 的 API 批量生成
  • 想做一个有情感的 AI 客服 → 用 inline tags 控制语气
  • 游戏里需要多角色对话 → 一次生成多角色,不用分开录
  • 不想付 ElevenLabs $99/月 → S2 Pro 只要 $75/月还多给 7 倍时长

对我有用吗?

维度收益代价
时间一次生成多角色对话,省去分别录制/合成学习 inline tags 语法约 30 分钟
金钱API 比 ElevenLabs 便宜 75%+;自部署则接近免费Plus $11/月起步,自部署需 24GB GPU
精力SDK 3 行代码就能生成语音自部署需要折腾 CUDA/SGLang

ROI 判断:如果你现在用 ElevenLabs 且月消费超过 $50,立刻切过来能省大钱。如果你只是偶尔用 TTS,免费版 7 分钟/月够体验。

喜闻乐见吗?

爽点在哪

  • 情绪控制是魔法:写 [whisper] 它真的压低声音,写 [sigh] 它真的叹气,不是简单变调
  • 多角色一次生成:不用为每个角色分别上传参考音频,一次搞定整段对话
  • 80+ 语言零配置:不需要音素标注,直接扔中文/日语/阿拉伯语进去就能说

"哇"的瞬间

"我输入 [laughing nervously],AI 真的笑了。这一刻我意识到语音 AI 长大了。" — @anujcodes_21

用户真实评价

"最具表现力的开放权重 TTS 模型,voice cloning 在阿拉伯语、德语和英语都跑得飞起" — @fahdmirza

"AI voice cloning just got dangerous" — @hasantoxr

"音质清晰和表达自然度在 TTS 里算是可以的,完全可以应对实时对话、多角色故事、长文本朗读" — @aigclink


给独立开发者

技术栈

  • 模型架构: Dual-AR(双自回归),基于 Qwen3 backbone
    • Slow AR:4B 参数,沿时间轴预测语义 codebook
    • Fast AR:400M 参数,每个时间步生成 9 个 residual codebooks
  • 音频编码: RVQ-based codec,10 codebooks,~21 Hz frame rate
  • 后训练: GRPO(Group Relative Policy Optimization)强化学习对齐
  • 推理引擎: SGLang(继承 continuous batching、paged KV cache、CUDA graph replay)
  • 训练数据: 10M+ 小时音频,80+ 语言
  • SDK: Python fish-audio-sdk / Node.js fish-audio-sdk

核心功能实现

说白了,S2 的核心创新在于把"情绪控制"做成了自然语言指令,而不是固定的 SSML 标签。你可以在文本任意位置插入 [whisper]、[excited]、[pitch up] 这样的描述,模型会在那个位置改变语音风格。这比 Google/Azure 的 <prosody rate="slow"> 灵活一百倍。

多角色生成也很聪明——用 <|speaker:i|> token 标记不同说话人,一次推理搞定整段对话,不用分开跑。

开源情况

  • 代码: Apache 2.0(真开源)
  • 模型权重: Fish Audio Research License(研究免费,商用需授权)
  • 坑来了: Twitter 社区笔记指出这不算真正的"开源",更准确叫"source-available"
  • GitHub: fishaudio/fish-speech
  • HuggingFace: fishaudio/s2-pro
  • 技术报告: arxiv 2603.08823
  • 类似开源项目: Coqui TTS(已停更)、StyleTTS2、XTTS
  • 自己做难度: 极高。4.4B 参数模型 + 10M 小时训练数据,没有大规模 GPU 集群基本不可能复现

商业模式

  • 变现方式: API 按用量订阅
  • 定价: Free $0(7分钟/月)→ Plus $11/月(200分钟)→ Pro $75/月(27小时)
  • MAU: 420,000+(2025 年中)
  • ARR: $5M+(2025 年 4 月)
  • 活跃开发者: 20,000+

巨头风险

中等偏高。OpenAI 已有 gpt-4o-mini-tts,Google 有 Cloud TTS,微软有 Azure Speech。但 S2 在 benchmark 上打赢了这些大厂,而且定价策略更激进。真正的风险不是被做掉,而是 ElevenLabs 跟进降价。不过 Fish Audio 的开源社区生态(So-VITS-SVC、GPT-SoVITS 等项目的积累)是护城河。


给产品经理

痛点分析

  • 解决什么问题: 现有 TTS 两个极端——便宜的(Google/Azure)不够有感情,有感情的(ElevenLabs)太贵
  • 痛点有多痛: 高频刚需。任何需要"让 AI 说话"的场景都需要 TTS,而且用户越来越不能忍受机器人腔调

用户画像

  • 主力用户: 开发者(集成进自己的产品)、内容创作者(播客/有声书)
  • 次要用户: 企业客户(客服/IVR)、游戏开发者
  • 使用场景: 批量内容生产、实时对话 AI、多语言本地化配音

功能拆解

功能类型说明
Inline Tags 情绪控制核心自然语言指令控制语气,15000+ 种描述
Zero-Shot 声音克隆核心10-30 秒参考音频克隆声音
Multi-Speaker 多角色核心单次生成多人对话
80+ 语言支持核心无需音素预处理
<150ms 延迟锦上添花实时对话场景需要
自部署锦上添花对数据敏感的企业需要

竞品差异

维度Fish Audio S2ElevenLabsGoogle Cloud TTSOpenAI TTS
核心差异自然语言情绪控制成熟的声音市场生态企业级稳定性GPT 生态集成
价格Pro $75/月 27hPro $99/月 500k credits按字符计费按 token 计费
开源代码开源/权重受限完全闭源完全闭源完全闭源
优势便宜 + 表现力 + 开源生态成熟 + 声音多稳定可靠与 GPT 无缝衔接
劣势许可证争议,自部署吃 GPU表现力弱表现力一般

可借鉴的点

  1. Inline Tags 设计: 把控制指令嵌入文本本身,而不是用另一套标记语言,大大降低了使用门槛
  2. "先开源建生态,再 API 变现" 的路径:从 So-VITS-SVC 到 GPT-SoVITS 到 Fish Speech,一路开源积累用户
  3. Benchmark 驱动的市场叙事: 不是说"我们很好",而是拿出数据证明"我们比 OpenAI 和 Google 都好"

给科技博主

创始人故事

  • Shijia Liao(廖世嘉),网名 Leng Yue(冷月),Gen Z
  • 前 NVIDIA 研究员,在 AI 语音领域耕耘 7 年+
  • 开源界名人——So-VITS-SVC、GPT-SoVITS、Bert-VITS2 等爆款项目的作者/核心贡献者
  • 离开 NVIDIA 后,用家里的 4090 GPU 开始做 Fish Audio
  • 4 人 Gen Z 创始团队,从 $400K ARR 到 $5M ARR 只用了 3 个月
  • 被 HF0 孵化器接受(YC 级别的 AI 专项孵化器,$1M SAFE for 5%)

故事角度: 一个 Gen Z 开源大佬离开 NVIDIA,在自己的 4090 上做出了打败 OpenAI 和 Google 的 TTS 模型。这本身就是一个好故事。

争议点/讨论角度

  • "伪开源"争议: 代码 Apache 但权重非商用许可,Twitter 社区笔记标注为"误导"
  • AI 声音伦理: 10 秒克隆任何人声音的能力引发 deepfake 担忧
  • 中国团队 vs 美国注册: 公司注册在特拉华,但团队背景和开源社区根基在中国
  • 开源 vs 商业化的张力: 如何在"让所有人用"和"赚钱养团队"之间找平衡

热度数据

  • ProductHunt: 569 票
  • Twitter: 多位万粉 KOL 转发(Fahd Mirza、Hasan Toor 等)
  • LMSYS 官方发推祝贺(LLM 评测领域最权威组织之一)
  • arxiv 技术报告: 学术界关注
  • Reddit r/LocalLLaMA: 高热度讨论

内容建议

  • 适合写的角度: "从 4090 到打败 OpenAI:一个 Gen Z 开源 TTS 的创业故事"
  • 蹭热点机会: AI 语音克隆安全讨论、开源 vs 闭源 AI 的路线之争
  • 视频方向: 实测对比 ElevenLabs vs Fish Audio S2,让观众听区别

给早期采用者

定价分析

层级价格包含功能够用吗?
Free$07 分钟/月,8000 credits,仅个人使用体验够,生产不够
Plus$11/月200 分钟,API 访问,商用授权个人创作者够用
Pro$75/月27 小时,优先级,30000 字符/次中等产量的团队够用

和 ElevenLabs 比: ElevenLabs Pro $99/月只给 500k credits(约 100 分钟高质量语音),Fish Audio Pro $75/月给 27 小时。性价比碾压。

上手指南

  • 上手时间: 5 分钟(API)/ 30 分钟(自部署)
  • 学习曲线: 低(API)/ 中高(自部署)
  • 步骤:
    1. fish.audio 注册账号
    2. 创建应用获取 API Key
    3. pip install fish-audio-sdk
    4. 三行代码生成语音:
from fishaudio import FishAudio
client = FishAudio(api_key="your_key")
audio = client.tts.convert(text="Hello [whisper] this is a secret [/whisper]")

坑和吐槽

  1. GPU 门槛高: 自部署至少 12GB VRAM,实际推荐 24GB。RTX 3060 跑起来 1 分钟音频要等 15 秒
  2. "开源"有水分: 模型权重商用要另买许可,别以为下载就能拿去做产品
  3. 部分英语声音没 ElevenLabs 自然: Benchmark 赢了,但人耳感受不完全一样
  4. 过度标记会打架: [whisper] 和 [excited] 放一起,模型可能懵——别贪多
  5. 免费版限制严格: 7 分钟/月,做个 demo 可以,干活不行

安全和隐私

  • 数据存储: API 方式走云端(fish.audio 服务器);自部署完全本地
  • 隐私政策: 公司注册在美国特拉华州,遵守美国法律
  • 声音克隆风险: 10 秒就能克隆声音,平台有使用条款限制但技术上无法完全防滥用

替代方案

替代品优势劣势
ElevenLabs生态成熟,声音质量稳定,市场大贵 3-4 倍
OpenAI TTS与 GPT 生态集成好表现力不如 S2
StyleTTS2完全免费开源性能不如 S2
Bark免费,支持非语音音效质量不如 S2
XTTSCoqui 出品,社区强项目已停更

给投资人

市场分析

  • 赛道规模: 2025 年全球 TTS 市场 ~$4B,2030 年预计 $7.6-8.3B
  • 增长率: CAGR 12-16%(保守)到 23%(乐观)
  • 驱动因素: AI Agent 需要说话、播客/有声书爆发、无障碍需求、汽车语音交互

竞争格局

层级玩家定位
头部Microsoft、Google、ElevenLabs云 TTS 服务
腰部OpenAI、MiniMax、ByteDance (Seed-TTS)AI 原生 TTS
新进入者Fish Audio开源社区 + API 服务

Fish Audio 的位置很有意思——用开源卡位,用 API 变现。类似当年 Hugging Face 在 NLP 模型上的路径。

Timing 分析

  • 为什么是现在: AI Agent 浪潮催生了对"能说话的 AI"的刚需;大模型推理成本下降使 4.4B 参数模型可以商业化部署
  • 技术成熟度: 从 benchmark 看已经超过闭源方案,但生产环境稳定性还需时间验证
  • 市场准备度: ElevenLabs 已教育好市场,用户知道 AI 语音能做什么,但嫌贵——Fish Audio 正好接住这波需求

团队背景

  • 创始人: Shijia Liao(廖世嘉),网名 Leng Yue(冷月),Gen Z
  • 核心团队: 4 人 Gen Z 创始团队
  • 过往成绩: So-VITS-SVC、GPT-SoVITS、Bert-VITS2 等开源项目在 AI 语音合成社区影响力极大
  • 首席科学家: 前 NVIDIA + 马里兰大学研究员

融资情况

  • 已知融资: HF0 孵化器($1M uncapped SAFE for 5%)+ 至少一轮 pre-HF0 融资
  • 投资人: 具体机构未公开
  • ARR: $5M+(2025 年 4 月)
  • MAU: 420,000+

结论

Fish Audio S2 是 2026 年 3 月最重要的 AI 语音发布之一。它用开源代码 + 顶级 benchmark + 激进定价,正面挑战了 ElevenLabs 的统治地位。

用户类型建议
开发者✅ 强烈推荐。技术领先,API 便宜,SDK 好用。注意模型权重商用许可
产品经理✅ 推荐关注。Inline Tags 情绪控制是值得借鉴的产品设计,定价策略也很聪明
博主✅ 值得写。Gen Z 创始人打败大厂的故事 + 开源争议 + AI 伦理,素材丰富
早期采用者✅ 推荐试用。从免费版开始体验,如果做内容 $11/月的 Plus 就够用
投资人✅ 值得关注。$4B 赛道、$5M ARR、420K MAU、技术领先,增长飞轮已转起来

资源链接

资源链接
官网fish.audio
S2 产品页fish.audio/s2
GitHubfishaudio/fish-speech
HuggingFacefishaudio/s2-pro
技术报告arxiv 2603.08823
API 文档docs.fish.audio
Python SDKfishaudio/fish-audio-python
ProductHuntproducthunt.com/products/fish-audio-s2
Twitter@FishAudio
创始人 LinkedInShijia Liao
博客fish.audio/blog

2026-03-16 | Trend-Tracker v7.3

一句话判断

Fish Audio S2 是目前最强的开源 TTS 挑战者,凭借顶级表现力和极高性价比,是开发者和创作者的首选替代方案。

常见问题

关于 Fish Audio S2 的常见问题

真正具有表现力的 AI 语音

Fish Audio S2 的主要功能包括:Inline Tags 自然语言情绪控制、Zero-Shot 10秒声音克隆、单次推理多角色对话生成、80+ 多语言支持。

Free(7分钟/月)、Plus($11/月,200分钟)、Pro($75/月,27小时)。

播客/有声书创作者、YouTuber、AI 客服开发者、游戏开发团队、教育内容公司。

Fish Audio S2 的主要竞品包括:ElevenLabs, OpenAI TTS, Google Cloud TTS, MiniMax Speech, Seed-TTS。。

数据来源: ProductHunt2026年3月16日
最后更新: