返回探索

Kokori

Social audio apps

强大的 macOS 文字转语音神器,本地运行更高效

💡 Kokori 是一款专为 macOS 打造的 TTS(文字转语音)应用:它集成了强大的本地 API 服务器和桌面客户端,提供高质量音质、语速控制以及无缝的菜单栏集成。你可以通过 API 为自己的应用程序生成音频,也可以直接使用桌面界面为播客、TikTok/Instagram 视频配音或制作音频片段。

"Kokori 就像是装在 Mac 菜单栏里的“数字声优”,不仅随叫随到,而且完全不收出场费。"

30秒快速判断
这App干嘛的:把 Kokoro-82M 开源 TTS 模型包装成 macOS 桌面应用,菜单栏一键调用,带本地 API 服务器。
值不值得关注:如果你经常需要 TTS 功能,且受不了 ElevenLabs 按字符收费,这个绝对值得试试。免费、本地运行、不限量。
6/10

热度

9/10

实用

90

投票

产品画像
完整分析报告

Kokori:macOS 上的免费本地 TTS 神器

2026-01-30 | 官网 | ProductHunt


30 秒快速判断

这 App 干嘛的:把 Kokoro-82M 这个开源 TTS 模型包装成了一个 macOS 桌面应用,菜单栏一键调用,还带本地 API 服务器,开发者可以直接集成。

值不值得关注:如果你经常需要 TTS 功能(做播客、配音、有声书),而且受不了 ElevenLabs 按字符收费,这个绝对值得试试。免费、本地运行、不限量。

和谁比

  • vs ElevenLabs:后者 $330/200 万字符,这个免费无限
  • vs macOS 自带朗读:这个音质好太多,有 54 种声音
  • vs 自己部署 Kokoro:这个零配置,下载就能用

与我有关三问

与我有关吗?

目标用户是谁

  1. 独立开发者:需要在 App 里集成 TTS 功能
  2. 内容创作者:做播客、TikTok/Instagram 配音
  3. 有声书制作者:批量转换文字为语音
  4. 无障碍辅助:帮助视障人士阅读

我是吗:如果你符合以下任一场景,你就是目标用户:

  • 每月要花几十刀在 TTS API 上
  • 想给视频加配音但不想自己录
  • 在开发需要语音输出的应用
  • 经常需要把文章转成音频听

什么场景会用到

  • 写了一篇博客,想转成音频放 YouTube
  • App 需要语音提示,用这个的 API 接口
  • 做播客脚本,先用 TTS 生成草稿听效果
  • 电子书太长不想看,转音频通勤听

对我有用吗?

维度收益代价
时间5 分钟上手,无配置生成速度约 0.7x 实时
金钱省下 ElevenLabs 费用($330/2M 字符)完全免费
精力本地运行,不用管账号和额度只支持 macOS

ROI 判断:如果你是 Mac 用户且需要 TTS,没理由不试。零成本、零风险、5 分钟见效。

喜闻乐见吗?

爽点在哪

  • 真的免费:无限生成,不像其他服务一用就超额
  • 菜单栏一键调用:选中文字就能转语音
  • 自带 API:开发者几行代码就能集成

"哇"的瞬间

"对于将电子书库转换为有声书来说,这简直是游戏规则的改变者。" — 数字出版商

用户真实评价

正面:"让我们能够以多种语言生成清晰且自然的配音,既节省了时间又节省了金钱" — 企业用户 正面:"虽然只是一个 82M 的模型,但效果惊人" — GitHub 用户 吐槽:不支持语音克隆,情感表达有限


给独立开发者

技术栈

  • 前端:macOS 原生应用,菜单栏集成
  • 后端:本地 REST API 服务器(OpenAI 兼容格式)
  • AI/模型:Kokoro-82M(82M 参数,StyleTTS 2 架构)
  • G2P 库:misaki(音素转换)
  • 基础设施:纯本地,无云依赖

核心功能实现

Kokoro-82M 采用 decoder-only 架构,没有 diffusion 也没有独立 encoder,这是它能用 82M 参数达到大模型效果的关键。模型基于 StyleTTS 2 架构,使用混合语音(Bella+Sarah 各 50% 混合)达到了 TTS Arena 排行榜第一。

本地 API 服务器暴露在 localhost:8880,接口设计兼容 OpenAI 格式,意味着你现有的 OpenAI TTS 代码几乎不用改就能切换过来。

开源情况

  • 模型开源:Kokoro-82M 是 Apache 2.0 许可,可商用
  • App 开源:Kokori App 本身不开源,是商业包装
  • 类似开源项目

自己做难度:中等,约 1 人周。模型和 API 都开源,主要工作是包装成 macOS App 和菜单栏集成。

商业模式

  • 变现方式:目前看起来是免费引流,可能后续加付费功能
  • 定价:完全免费,无限使用
  • 行业参考:Kokoro API 市场价约 $1/百万字符

巨头风险

低。TTS 是成熟市场,巨头(Google、Amazon、Microsoft)已有云服务,但本地免费 TTS 是差异化定位。Apple 可能在 macOS/iOS 加强自带 TTS,但短期内音质还追不上。


给产品经理

痛点分析

解决什么问题

  1. 云端 TTS 太贵(ElevenLabs $330/200 万字符)
  2. 开发调试时不想每次都花钱调 API
  3. 隐私敏感场景需要本地处理

痛点有多痛:高频+刚需。内容创作者和开发者每天都可能用到,而且一用就是大量文字。

用户画像

  • 主力用户:独立开发者、小型创业团队
  • 使用场景:产品原型开发、内容批量生产
  • 付费意愿:愿意为省时间付费,但对按字符收费反感

功能拆解

功能类型说明
本地 TTS 生成核心基于 Kokoro-82M,54 种声音
REST API 服务器核心OpenAI 兼容,方便集成
菜单栏快捷操作核心macOS 原生体验
语速/音调调节核心自定义输出效果
本地文件存储锦上添花自动保存生成的音频

竞品差异

vsKokoriElevenLabsmacOS 自带
价格免费$5-330/月免费
音质高(TTS Arena #1)最高一般
本地运行
API 支持
语音克隆

可借鉴的点

  1. “下载即用”理念:零配置是杀手级体验,对比其他 TTS 工具需要装 Python、装依赖、配环境
  2. 菜单栏入口:符合 macOS 用户习惯,降低使用门槛
  3. OpenAI 兼容 API:迁移成本为零,聪明的设计

给科技博主

创始人故事

Kokori App 的开发者信息不公开。但底层的 Kokoro-82M 模型由 hexgrad 开发,@rzvzn 训练。名字 "Kokoro" 来自日语,意为 "心" 或 "灵魂"。

有趣的是,Kokoro 和其配套 G2P 库 misaki 的名字都来自终结者系列角色。

发布时间线

  • 2024 年 12 月 25 日:Kokoro v0.19 发布(圣诞礼物)
  • 2025 年 1 月 2 日:发布 10 种语音包+ONNX 版本
  • 2026 年 1 月 30 日:Kokori App 上线 ProductHunt

争议点/讨论角度

  1. 小模型吊打大模型:82M 参数干掉了 467M 的 XTTS v2 和 1.2B 的 MetaVoice,值得深挖
  2. 开源模型 vs 商业包装:模型 Apache 开源,App 闭源收费是否合理?
  3. 本地 AI 的复兴:隐私和成本驱动下,本地模型正在回归

热度数据

  • PH 排名:90 票(中等热度)
  • 底层模型热度:TTS Arena 排名第一(开源模型)
  • GitHub 活跃度:kokoro 主仓库持续更新

内容建议

  • 适合写的角度:"免费替代 ElevenLabs"、"小模型大作为"
  • 蹭热点机会:AI 成本话题、隐私话题

给早期采用者

定价分析

层级价格包含功能够用吗?
完整版免费全部功能完全够用

没有付费层级,完全免费,无限使用。

上手指南

上手时间:5 分钟

学习曲线:低

步骤

  1. 访问 kokori.app 下载 DMG
  2. 拖到 Applications 文件夹
  3. 点击打开,菜单栏出现图标
  4. 输入文字,选择声音,点击生成
  5. 开发者:访问 localhost:8880 使用 API

坑和吐槽

  1. 只支持 macOS:Windows/Linux 用户需要自己部署开源版
  2. 不支持语音克隆:训练数据不到 100 小时,无法学习新声音
  3. 情感表达有限:笑声、愤怒、悲伤等情感生成效果一般
  4. 英语为主:虽然支持 8 种语言,但英语效果最好

安全和隐私

  • 数据存储:完全本地,不上传任何内容
  • 隐私政策:零数据收集(本地运行)
  • 安全审计:无需担心,数据不离开设备

替代方案

替代品优势劣势
ElevenLabs音质最高、支持克隆贵,按字符收费
自部署 Kokoro完全控制需要技术能力
Fish Audio便宜($9.99/月)云端依赖
macOS 自带 TTS系统集成音质一般

给投资人

市场分析

  • 赛道规模:$40 亿(2024)→ $76 亿(2029),CAGR 13.7%
  • 长期预测:$345 亿(2035),CAGR 23.3%
  • 增长驱动:AI 内容生产、无障碍需求、多语言全球化

竞争格局

层级玩家定位
头部Amazon Polly, Google TTS, Microsoft Azure云服务,按量计费
腰部ElevenLabs, Play.ht, Murf.ai高质量,订阅制
新进入者Kokori, Fish Audio低成本/本地化

Timing 分析

为什么是现在

  1. 模型效率突破:82M 参数能打 1B+,本地运行成为可能
  2. 成本意识觉醒:SaaS 疲劳,用户反感按用量收费
  3. 隐私法规趋严:本地处理成为刚需

技术成熟度:高,Kokoro 模型已在 Arena 验证

市场准备度:高,用户对免费本地方案需求明确

团队背景

  • Kokori App:开发者未公开
  • Kokoro 模型:hexgrad 团队,@rzvzn 主导训练

融资情况

  • 已融资:未公开(可能为独立开发者项目)
  • 商业化路径:免费增值或被收购

结论

Kokori 是 macOS 用户本地 TTS 的最佳选择——免费、好用、零配置。

用户类型建议
开发者强烈推荐:免费 API,OpenAI 兼容,集成成本低
产品经理推荐关注:本地 AI 是趋势,商业模式值得借鉴
博主适合写:小模型吊打大模型的故事有流量
早期采用者强烈推荐:免费无风险,5 分钟试试
投资人观望:市场大但变现路径不清晰

资源链接

资源链接
官网https://kokori.app/
ProductHunthttps://www.producthunt.com/products/kokori
Kokoro 模型https://huggingface.co/hexgrad/Kokoro-82M
GitHub (模型)https://github.com/hexgrad/kokoro
iOS/macOS 开源版https://github.com/mlalma/kokoro-ios

2026-01-31 | Trend-Tracker v7.3

一句话判断

Kokori 是 macOS 用户本地 TTS 的最佳选择——免费、好用、零配置。

常见问题

关于 Kokori 的常见问题

把 Kokoro-82M 开源 TTS 模型包装成 macOS 桌面应用,菜单栏一键调用,带本地 API 服务器。

Kokori 的主要功能包括:本地 TTS 生成、REST API 服务器、菜单栏快捷操作、语速/音调调节。

完全免费,无限使用。

1. 独立开发者;2. 内容创作者;3. 有声书制作者;4. 无障碍辅助

Kokori 的主要竞品包括:ElevenLabs, macOS 自带。

数据来源: ProductHunt2026年2月2日
最后更新: