Kollect Voice Agent:一个把表单变成语音对话的开源实验
2026-02-20 | ProductHunt | 官网
30秒快速判断
这产品是做什么的:把传统的问卷表单变成语音对话 —— 你不用填写输入框,直接对着麦克风说话,AI 会实时引导你完成整个调查。甚至可以用自然语言描述来创建表单。
值不值得关注:如果你是独立开发者,值得花 20 分钟看看它的技术栈和实现思路。作为产品本身,目前太早期了(PH 仅 4 票,刚上线两天),但它代表的“语音替代表单”方向确实在 2026 年开始起飞了。
与我有关三问
与我有关吗?
- 目标用户是谁:需要收集用户反馈/做调查的产品团队、市场研究人员、UX 研究员。
- 我是吗:如果你经常发问卷但回收率低得想哭,或者你的用户不爱打字(比如老年人、蓝领工人),你就是目标用户。
- 什么场景会用到:
- 客户满意度调查 —— 用语音聊天替代冷冰冰的表单,回收率能提高约 45%。
- 用户访谈批量化 —— AI 代你做半结构化访谈,省掉大量人工成本。
- 无障碍场景 —— 视障用户、不方便打字的用户,说话比填表方便太多。
- 如果你只是想做个内部小调查,其实不需要这个,Google Forms 就够了。
对我有用吗?
| 维度 | 收益 | 代价 |
|---|---|---|
| 时间 | 语音调查完成率高 45%,详细回复多 3 倍 | 需要自己部署和配置各种 API Key |
| 金钱 | 开源免费,轻度使用各 API 免费层够用 | 重度使用 Deepgram $0.0077/分钟起 |
| 精力 | 用自然语言就能创建表单 | 产品极其早期,文档几乎没有,遇到 bug 全靠自己 |
ROI 判断:现阶段不建议用于正式项目。但如果你是开发者想研究“语音+AI+表单”怎么做,这是个很好的学习材料 —— 技术栈现代、架构清晰、完全开源。
喜闻乐见吗?
爽点在哪:
- 用嘴创建表单:不用拖拽字段,直接说“我要做一个客户满意度调查,包含 5 个问题”,AI 就能帮你生成。
- 语音填表:终于不用在手机上戳那些细小的输入框了,直接说话就行。
“哇”的瞬间:
“填表可能极其无聊,那为什么不直接和它们聊天呢?” —— 开发者在 Vercel 社区的原话。
用户真实评价: 产品刚上线 2 天(约 2026-02-18),PH 仅 4 票,Twitter/Reddit 零讨论。开发者在 Vercel 社区发帖说“期待大家的反馈”,还在等第一批种子用户的声音。说白了,你现在试用就是 Alpha 测试员。
给独立开发者
技术栈
这是一套非常现代的全栈组合:
- 前端:Next.js(React 全栈框架)
- 后端/数据库:Convex(实时响应式数据库,自带 serverless 函数)
- 语音识别 (STT):Deepgram AI(实时语音转文字,延迟 <300ms)
- LLM 路由:OpenRouter(统一接口访问 500+ 个模型)
- 用户认证:Clerk(50,000 MAU 免费额度)
- 部署:Vercel
这个技术选型有意思的地方在于:用 OpenRouter 而不是直接调 OpenAI。这意味着可以灵活切换底层模型(GPT-4o、Claude、Gemini 随便换),不被单一供应商绑定。用 Convex 做实时数据库也很聪明 —— 语音对话本身就需要实时同步,Convex 原生支持 sub-50ms 的读写延迟。
核心功能实现
从技术角度推测(基于已知技术栈):
- 用户对着麦克风说话 -> Deepgram 实时 STT 转文字。
- 转写文本送入 OpenRouter 路由的 LLM -> 理解用户意图、提取答案。
- LLM 根据表单结构动态生成下一个问题 -> TTS 播放(或文字显示)。
- 对话数据实时存入 Convex 数据库。
- 表单创建:用户用自然语言描述需求 -> LLM 生成表单结构。
这个架构的难点在于延迟控制 —— 语音输入 -> 识别 -> LLM 思考 -> 回复,整条链路需要控制在 1-2 秒内才不会让用户觉得卡顿。Deepgram 的实时 API 延迟在 300ms 以内,但 LLM 推理时间目前仍是瓶颈。
开源情况
- 开源吗:是。PH 标签明确标注为 Open Source,Vercel 社区帖子也提到 “fully open source”。
- GitHub 仓库:搜了半天没找到公开仓库链接。开发者 GitHub 用户名是 admildo,之前做过 speechy(Electron 多 TTS 引擎工具),但 Kollect 的仓库可能还没公开或者使用了不同名称。
- 类似开源项目:Formbricks(开源表单,但无语音)、Vocode(开源语音 AI 框架)。
- 自己做难度:中等。如果你熟悉 Next.js + Deepgram + LLM API,核心功能 1 个人 2-3 周可以做出 MVP。难点不在技术,而在产品体验的打磨。
商业模式
目前没有商业模式,就是一个开源侧边项目。底层 API 成本参考:
| 服务 | 免费额度 | 超出后价格 |
|---|---|---|
| Deepgram STT | $200 免费(约 433 小时) | $0.0077/分钟 |
| OpenRouter | 有免费模型,按量付费 | 按模型不同,从免费到 $0.01+/1K tokens |
| Convex | 100 万次函数调用/月 | Professional 计划另算 |
| Clerk | 50,000 MAU 免费 | Pro 计划 $20/月起 |
| Vercel | Hobby 免费 | Pro $20/月 |
轻度使用(比如每月几百次调查),各家免费层完全够用,总成本为 $0。
巨头风险
高。Google Forms 已经有 AI 功能了,Typeform 正在加 AI,微软的 Microsoft Forms 迟早也会跟进。不过这些巨头目前加的是“AI 辅助生成表单”,而不是“语音对话替代表单”。真正的竞争来自 TheySaid、Voiceform 这些垂直玩家,他们已经拿到融资并拥有付费客户了。
给产品经理
痛点分析
- 解决什么问题:传统表单的两大顽疾 —— 完成率低、回复质量差。
- 痛点有多痛:相当痛。数据显示高达 80% 的在线问卷在完成前就被放弃了。1997 年调查回复率还有 40%,到现在不到 5%(Pew 数据)。语音调查能把完成率从 28% 拉到 76%(教育领域研究),捕捉到的情感信息多出 67%。
- 频率:中频。不是每天都做调查,但一旦需要做,这个痛点就很扎心。
用户画像
- 市场研究人员:需要大量收集用户反馈,传统调查回复率越来越低。
- UX 研究员:想做用户访谈但人力不够,需要 AI 辅助批量化。
- 产品团队:每次发 NPS 调查都只收到“还行”“不错”之类的敷衍回复。
- 教育机构:给学生做测评,语音比文字更自然。
功能拆解
| 功能 | 类型 | 说明 |
|---|---|---|
| 语音实时对话 | 核心 | 用户说话,AI 实时理解并引导 |
| AI 动态引导 | 核心 | 根据回答内容智能调整下一个问题 |
| 自然语言创建表单 | 核心 | 描述需求就能生成表单结构 |
| 用户认证 | 基础 | Clerk 提供登录/注册 |
| 实时数据同步 | 基础 | Convex 实时数据库 |
竞品差异
| 维度 | Kollect | Typeform | Voiceform | TheySaid |
|---|---|---|---|---|
| 核心交互 | 语音对话 | 文字一问一答 | 语音+视频+文字 | AI 语音对话 |
| 价格 | 免费开源 | $25-83/月 | 未公开 | 未公开 |
| 开源 | 是 | 否 | 否 | 否 |
| 成熟度 | 极早期 | 成熟 | 中等 | 中等 |
| AI 能力 | LLM 动态引导 | AI 生成+分析 | 语音转文字+分析 | AI 全程引导 |
| 多语言 | 取决于 Deepgram | 多语言 | 多语言 | 有 |
可借鉴的点
- “用嘴创建表单”:这个交互创意很好。用自然语言描述调查需求 -> AI 自动生成表单结构,比拖拽式编辑器门槛低很多。
- 语音优先的表单体验:传统表单产品都在加 AI,但路径是“AI 辅助填表”;Kollect 的路径是“完全用语音替代填表”,思路更激进。
- 技术栈选型:OpenRouter 做 LLM 路由 + Convex 做实时数据库,这套组合非常值得参考。
给科技博主
创始人故事
- 创始人:Admildo Manuel
- 背景:自我介绍是“一个对工程、计算机科学、数据科学、数学和创业有强烈驱动力的极客/基督徒”。在 Medium 上写技术文章,GitHub 上之前做过 speechy(多 TTS 引擎朗读工具),说明一直对语音技术有浓厚兴趣。
- 社交:GitHub / Medium / Instagram @admildofm
- 为什么做这个:从 speechy 到 Kollect,能看到从“文字转语音”到“语音替代表单”的技术路线演进。推测动机是将语音交互引入更多日常场景。
争议点/讨论角度
- 角度1 —— “表单已死?”:语音 AI 调查完成率比传统表单高 45-170%,这个数据够写一篇好文章。但反面是:不是所有场景都适合语音(公共场合、隐私数据、结构化数据采集)。
- 角度2 —— 独立开发者 vs 有融资的竞品:Kollect 是一个人的开源项目,对手是拿了钱的 TheySaid、Voiceform。这条赛道是“小而美”还是“赢者通吃”?
- 角度3 —— AI 时代的表单重新定义:2026 年还在用 1990 年代发明的 HTML 表单收集数据,是不是有点过时了?
热度数据
- PH 排名:PH 4 票,几乎没有热度。
- Twitter 讨论:零。搜遍了没有人讨论。
- Vercel 社区:刚发帖 2 天,在 Showcase 和 Open Source 两个板块发了帖。
- 搜索趋势:无趋势可言,太新了。
内容建议
- 适合写的角度:不要单写 Kollect 本身(素材太少),而是写“语音 AI 正在杀死传统表单”这个趋势,将 Kollect 作为案例之一。
- 蹭热点机会:语音 AI 赛道 2026 年很热(85% 企业计划采用),可以结合 Deepgram、Voiceform 等一起写一篇赛道综述。
给早期采用者
定价分析
| 层级 | 价格 | 包含功能 | 够用吗? |
|---|---|---|---|
| 开源免费 | $0 | 全部功能,需自己部署和配 API Key | 够用但折腾 |
| API 成本 | ~$0(轻度) | 各 API 免费层:Deepgram $200、Clerk 50K MAU、Convex 100 万次调用 | 个人/小团队完全够 |
| API 成本 | 按量付费(重度) | Deepgram ~$28/1000 小时 | 企业级才需要 |
上手指南
- 上手时间:如果你是开发者,预计 30-60 分钟(配环境 + API Key)。如果你不是开发者,目前没有托管版本,无法直接使用。
- 学习曲线:中(需要了解 Next.js 部署、配置多个 API Key)。
- 步骤(推测):
- 克隆仓库。
- 注册并获取 Deepgram、OpenRouter、Convex、Clerk 的 API Key。
- 配置环境变量。
- 执行
npm install && npm run dev。 - 在浏览器中打开,允许麦克风权限,开始体验。
坑和吐槽
- GitHub 仓库找不到:号称开源但搜不到公开仓库,这是最大的坑。可能还没发布代码,或者用了不同的仓库名。
- 语音识别受环境影响:在嘈杂环境下,语音识别准确率可能下降 30% 以上。
- 产品极其早期:没有文档、没有社区、没有案例,遇到问题只能看代码或找开发者。
- 隐私顾虑:语音数据会经过 Deepgram 的云端 API 处理。
安全和隐私
- 数据存储:Convex 云端数据库(也可自托管)。
- 语音处理:经过 Deepgram 云端 API(有 SOC 2 Type II、HIPAA 合规)。
- 用户认证:Clerk(有 SOC 2 合规)。
- 隐私政策:开源项目,无独立隐私政策。数据安全取决于你怎么部署。
替代方案
| 替代品 | 优势 | 劣势 |
|---|---|---|
| Voiceform | 成熟产品,语音+视频+文字,多语言 | 非开源,价格不透明 |
| TheySaid | AI 全程引导语音调查,企业级 | 非开源,可能较贵 |
| BetterFeedback | 宣称 3x 完成率,支持聊天+语音 | 非开源 |
| Formbricks | 开源自托管,免费无限回复 | 无语音能力 |
| Typeform | 最成熟的对话式表单,品牌认知度高 | 无语音,贵($25-83/月) |
给投资人
市场分析
- 对话式 AI 市场:2026 年约 $18-21B,CAGR 20-23.7%。
- 在线表单构建软件市场:2026 年约 $764.5M,预计 2035 年达 $1.77B,CAGR 9.8%。
- AI 语音市场:2025 年 $4.16B -> 2031 年 $20.71B,CAGR 30.7%。
- 交叉领域:“语音 AI + 表单”是对话式 AI 和表单软件两个市场的交集,目前没有独立的市场规模数据,但增长潜力明显。
竞争格局
| 层级 | 玩家 | 定位 |
|---|---|---|
| 头部 | Typeform, Qualtrics, SurveyMonkey | 传统表单巨头,正在加 AI |
| 腰部 | TheySaid, Voiceform, BetterFeedback | AI 语音调查新秀,有融资 |
| 开源 | Formbricks | 开源表单,无语音 |
| 新进入者 | Kollect Voice Agent | 开源、语音优先、极早期 |
Timing 分析
- 为什么是现在:2026 年 Deepgram 的实时 STT 延迟已降到 300ms 以内,OpenRouter 让 LLM 调用成本降到极低,Convex 提供了开箱即用的实时数据库。三年前这套技术栈根本搭不起来,现在一个人就能做。
- 技术成熟度:底层技术(STT、LLM、实时数据库)已经足够成熟,瓶颈在产品体验。
- 市场准备度:企业端 85% 计划采用语音 AI,但“语音表单”这个细分领域还在教育市场阶段。
团队背景
- 创始人:Admildo Manuel,独立开发者。
- 核心团队:1 人,Solo project。
- 过往成绩:speechy(Electron TTS 工具),Medium 技术博主。
融资情况
- 已融资:无。
- 投资人:无。
- 估值:N/A —— 这是一个开源个人项目,不是一家公司。
投资角度:Kollect 本身不是投资标的,但它验证的方向 —— “语音 AI 替代传统表单” —— 值得关注。该赛道的 TheySaid、Voiceform、BetterFeedback 是更值得跟踪的标的。
结论
一句话:Kollect Voice Agent 是一个技术选型优秀但极其早期的开源实验,它的价值不在产品本身,而在于它用很小的成本验证了“语音 AI 替代表单”这条路线的可行性。
| 用户类型 | 建议 |
|---|---|
| 开发者 | 值得看看技术实现(Next.js + Deepgram + OpenRouter + Convex),可以当学习材料,但别指望达到生产级。 |
| 产品经理 | 关注“语音替代表单”这个趋势,但建议观察 TheySaid/Voiceform 这些更成熟的产品。 |
| 博主 | 不建议单独写 Kollect,但可以写“语音 AI 杀死传统表单”的趋势文章。 |
| 早期采用者 | 除非你是开发者且愿意折腾,否则请观望。试试 Voiceform 或 TheySaid 更靠谱。 |
| 投资人 | 产品本身无投资价值,但赛道值得关注。 |
资源链接
搜索来源
- Kollect Voice Agent - UIComet
- Vercel Community Showcase
- Vercel Community Open Source
- Deepgram Pricing
- OpenRouter Pricing
- Convex Pricing
- Clerk Pricing
- AI Voice Surveys - TheySaid
- Conversational AI Market - Fortune Business Insights
- Form Builder Software Market
- Voice AI Market Statistics - Citrusbug
- Typeform Alternatives 2026 - Perspective AI
- Voice AI Challenges - BeConversive
- Admildo Manuel - GitHub
- Admildo Manuel - Medium
2026-02-20 | Trend-Tracker v7.3