Kokori:macOS 上的免费本地 TTS 神器
2026-01-30 | 官网 | ProductHunt
30 秒快速判断
这 App 干嘛的:把 Kokoro-82M 这个开源 TTS 模型包装成了一个 macOS 桌面应用,菜单栏一键调用,还带本地 API 服务器,开发者可以直接集成。
值不值得关注:如果你经常需要 TTS 功能(做播客、配音、有声书),而且受不了 ElevenLabs 按字符收费,这个绝对值得试试。免费、本地运行、不限量。
和谁比:
- vs ElevenLabs:后者 $330/200 万字符,这个免费无限
- vs macOS 自带朗读:这个音质好太多,有 54 种声音
- vs 自己部署 Kokoro:这个零配置,下载就能用
与我有关三问
与我有关吗?
目标用户是谁:
- 独立开发者:需要在 App 里集成 TTS 功能
- 内容创作者:做播客、TikTok/Instagram 配音
- 有声书制作者:批量转换文字为语音
- 无障碍辅助:帮助视障人士阅读
我是吗:如果你符合以下任一场景,你就是目标用户:
- 每月要花几十刀在 TTS API 上
- 想给视频加配音但不想自己录
- 在开发需要语音输出的应用
- 经常需要把文章转成音频听
什么场景会用到:
- 写了一篇博客,想转成音频放 YouTube
- App 需要语音提示,用这个的 API 接口
- 做播客脚本,先用 TTS 生成草稿听效果
- 电子书太长不想看,转音频通勤听
对我有用吗?
| 维度 | 收益 | 代价 |
|---|---|---|
| 时间 | 5 分钟上手,无配置 | 生成速度约 0.7x 实时 |
| 金钱 | 省下 ElevenLabs 费用($330/2M 字符) | 完全免费 |
| 精力 | 本地运行,不用管账号和额度 | 只支持 macOS |
ROI 判断:如果你是 Mac 用户且需要 TTS,没理由不试。零成本、零风险、5 分钟见效。
喜闻乐见吗?
爽点在哪:
- 真的免费:无限生成,不像其他服务一用就超额
- 菜单栏一键调用:选中文字就能转语音
- 自带 API:开发者几行代码就能集成
"哇"的瞬间:
"对于将电子书库转换为有声书来说,这简直是游戏规则的改变者。" — 数字出版商
用户真实评价:
正面:"让我们能够以多种语言生成清晰且自然的配音,既节省了时间又节省了金钱" — 企业用户 正面:"虽然只是一个 82M 的模型,但效果惊人" — GitHub 用户 吐槽:不支持语音克隆,情感表达有限
给独立开发者
技术栈
- 前端:macOS 原生应用,菜单栏集成
- 后端:本地 REST API 服务器(OpenAI 兼容格式)
- AI/模型:Kokoro-82M(82M 参数,StyleTTS 2 架构)
- G2P 库:misaki(音素转换)
- 基础设施:纯本地,无云依赖
核心功能实现
Kokoro-82M 采用 decoder-only 架构,没有 diffusion 也没有独立 encoder,这是它能用 82M 参数达到大模型效果的关键。模型基于 StyleTTS 2 架构,使用混合语音(Bella+Sarah 各 50% 混合)达到了 TTS Arena 排行榜第一。
本地 API 服务器暴露在 localhost:8880,接口设计兼容 OpenAI 格式,意味着你现有的 OpenAI TTS 代码几乎不用改就能切换过来。
开源情况
- 模型开源:Kokoro-82M 是 Apache 2.0 许可,可商用
- App 开源:Kokori App 本身不开源,是商业包装
- 类似开源项目:
- kokoro-ios:iOS/macOS 的 MLX Swift 实现
- kokoro-onnx:ONNX 版本,约 80MB
自己做难度:中等,约 1 人周。模型和 API 都开源,主要工作是包装成 macOS App 和菜单栏集成。
商业模式
- 变现方式:目前看起来是免费引流,可能后续加付费功能
- 定价:完全免费,无限使用
- 行业参考:Kokoro API 市场价约 $1/百万字符
巨头风险
低。TTS 是成熟市场,巨头(Google、Amazon、Microsoft)已有云服务,但本地免费 TTS 是差异化定位。Apple 可能在 macOS/iOS 加强自带 TTS,但短期内音质还追不上。
给产品经理
痛点分析
解决什么问题:
- 云端 TTS 太贵(ElevenLabs $330/200 万字符)
- 开发调试时不想每次都花钱调 API
- 隐私敏感场景需要本地处理
痛点有多痛:高频+刚需。内容创作者和开发者每天都可能用到,而且一用就是大量文字。
用户画像
- 主力用户:独立开发者、小型创业团队
- 使用场景:产品原型开发、内容批量生产
- 付费意愿:愿意为省时间付费,但对按字符收费反感
功能拆解
| 功能 | 类型 | 说明 |
|---|---|---|
| 本地 TTS 生成 | 核心 | 基于 Kokoro-82M,54 种声音 |
| REST API 服务器 | 核心 | OpenAI 兼容,方便集成 |
| 菜单栏快捷操作 | 核心 | macOS 原生体验 |
| 语速/音调调节 | 核心 | 自定义输出效果 |
| 本地文件存储 | 锦上添花 | 自动保存生成的音频 |
竞品差异
| vs | Kokori | ElevenLabs | macOS 自带 |
|---|---|---|---|
| 价格 | 免费 | $5-330/月 | 免费 |
| 音质 | 高(TTS Arena #1) | 最高 | 一般 |
| 本地运行 | 是 | 否 | 是 |
| API 支持 | 是 | 是 | 否 |
| 语音克隆 | 否 | 是 | 否 |
可借鉴的点
- “下载即用”理念:零配置是杀手级体验,对比其他 TTS 工具需要装 Python、装依赖、配环境
- 菜单栏入口:符合 macOS 用户习惯,降低使用门槛
- OpenAI 兼容 API:迁移成本为零,聪明的设计
给科技博主
创始人故事
Kokori App 的开发者信息不公开。但底层的 Kokoro-82M 模型由 hexgrad 开发,@rzvzn 训练。名字 "Kokoro" 来自日语,意为 "心" 或 "灵魂"。
有趣的是,Kokoro 和其配套 G2P 库 misaki 的名字都来自终结者系列角色。
发布时间线:
- 2024 年 12 月 25 日:Kokoro v0.19 发布(圣诞礼物)
- 2025 年 1 月 2 日:发布 10 种语音包+ONNX 版本
- 2026 年 1 月 30 日:Kokori App 上线 ProductHunt
争议点/讨论角度
- 小模型吊打大模型:82M 参数干掉了 467M 的 XTTS v2 和 1.2B 的 MetaVoice,值得深挖
- 开源模型 vs 商业包装:模型 Apache 开源,App 闭源收费是否合理?
- 本地 AI 的复兴:隐私和成本驱动下,本地模型正在回归
热度数据
- PH 排名:90 票(中等热度)
- 底层模型热度:TTS Arena 排名第一(开源模型)
- GitHub 活跃度:kokoro 主仓库持续更新
内容建议
- 适合写的角度:"免费替代 ElevenLabs"、"小模型大作为"
- 蹭热点机会:AI 成本话题、隐私话题
给早期采用者
定价分析
| 层级 | 价格 | 包含功能 | 够用吗? |
|---|---|---|---|
| 完整版 | 免费 | 全部功能 | 完全够用 |
没有付费层级,完全免费,无限使用。
上手指南
上手时间:5 分钟
学习曲线:低
步骤:
- 访问 kokori.app 下载 DMG
- 拖到 Applications 文件夹
- 点击打开,菜单栏出现图标
- 输入文字,选择声音,点击生成
- 开发者:访问 localhost:8880 使用 API
坑和吐槽
- 只支持 macOS:Windows/Linux 用户需要自己部署开源版
- 不支持语音克隆:训练数据不到 100 小时,无法学习新声音
- 情感表达有限:笑声、愤怒、悲伤等情感生成效果一般
- 英语为主:虽然支持 8 种语言,但英语效果最好
安全和隐私
- 数据存储:完全本地,不上传任何内容
- 隐私政策:零数据收集(本地运行)
- 安全审计:无需担心,数据不离开设备
替代方案
| 替代品 | 优势 | 劣势 |
|---|---|---|
| ElevenLabs | 音质最高、支持克隆 | 贵,按字符收费 |
| 自部署 Kokoro | 完全控制 | 需要技术能力 |
| Fish Audio | 便宜($9.99/月) | 云端依赖 |
| macOS 自带 TTS | 系统集成 | 音质一般 |
给投资人
市场分析
- 赛道规模:$40 亿(2024)→ $76 亿(2029),CAGR 13.7%
- 长期预测:$345 亿(2035),CAGR 23.3%
- 增长驱动:AI 内容生产、无障碍需求、多语言全球化
竞争格局
| 层级 | 玩家 | 定位 |
|---|---|---|
| 头部 | Amazon Polly, Google TTS, Microsoft Azure | 云服务,按量计费 |
| 腰部 | ElevenLabs, Play.ht, Murf.ai | 高质量,订阅制 |
| 新进入者 | Kokori, Fish Audio | 低成本/本地化 |
Timing 分析
为什么是现在:
- 模型效率突破:82M 参数能打 1B+,本地运行成为可能
- 成本意识觉醒:SaaS 疲劳,用户反感按用量收费
- 隐私法规趋严:本地处理成为刚需
技术成熟度:高,Kokoro 模型已在 Arena 验证
市场准备度:高,用户对免费本地方案需求明确
团队背景
- Kokori App:开发者未公开
- Kokoro 模型:hexgrad 团队,@rzvzn 主导训练
融资情况
- 已融资:未公开(可能为独立开发者项目)
- 商业化路径:免费增值或被收购
结论
Kokori 是 macOS 用户本地 TTS 的最佳选择——免费、好用、零配置。
| 用户类型 | 建议 |
|---|---|
| 开发者 | 强烈推荐:免费 API,OpenAI 兼容,集成成本低 |
| 产品经理 | 推荐关注:本地 AI 是趋势,商业模式值得借鉴 |
| 博主 | 适合写:小模型吊打大模型的故事有流量 |
| 早期采用者 | 强烈推荐:免费无风险,5 分钟试试 |
| 投资人 | 观望:市场大但变现路径不清晰 |
资源链接
| 资源 | 链接 |
|---|---|
| 官网 | https://kokori.app/ |
| ProductHunt | https://www.producthunt.com/products/kokori |
| Kokoro 模型 | https://huggingface.co/hexgrad/Kokoro-82M |
| GitHub (模型) | https://github.com/hexgrad/kokoro |
| iOS/macOS 开源版 | https://github.com/mlalma/kokoro-ios |
2026-01-31 | Trend-Tracker v7.3