返回探索

gpt-realtime-1.5 by OpenAI

API

语音智能体指令遵循能力更强,沟通更精准

💡 构建 AI 产品最强大的平台。利用行业领先的模型和工具,构建并扩展由 AI 驱动的卓越体验。

"之前的语音 AI 像个反应迟钝的传声筒,而 gpt-realtime-1.5 就像个自带“顺风耳”和“最强大脑”的超级前台,不仅听得准,还能秒办事。"

30秒快速判断
这App干嘛的:OpenAI 实时语音模型的升级版,让 AI 语音代理能更靠谱地听指令、调工具、说多国语言。
值不值得关注:如果你在做语音 AI 产品,这是必看项。gpt-realtime-1.5 在工具调用可靠性上有实质提升(+25% 以上),解决了生产部署的核心痛点。
8/10

热度

9/10

实用

128

投票

产品画像
完整分析报告

gpt-realtime-1.5:OpenAI 语音代理的"认真干活"版本

2026-02-27 | ProductHunt | 官网 | API文档

OpenAI Realtime API

OpenAI Realtime API 官方题图 — "Agent online" 界面,代表语音代理已就绪


30秒快速判断

这东西干嘛的:OpenAI 的实时语音模型升级版,让 AI 语音代理能更靠谱地听指令、调工具、说多国语言。说白了,就是让你的 AI 客服电话终于不那么"傻"了。

值不值得关注:如果你在做语音 AI 产品,这是必须关注的。gpt-realtime-1.5 在工具调用 (tool calling) 可靠性上有实质提升(+25%以上),这是之前开发者吐槽最多的痛点。但如果你只是普通用户,这个更新跟你没啥关系——这是纯 API 产品,面向开发者。


与我有关三问

与我有关吗?

目标用户:正在构建或打算构建语音 AI 产品的开发者和企业。具体来说:

  • 做 AI 客服电话系统的团队
  • 构建语音助手(比如智能点餐、预约调度)的开发者
  • 需要多语言语音交互的国际化产品

我是目标用户吗

  • 如果你在做语音 AI 产品 → 你就是核心用户
  • 如果你是做 SaaS 想加语音功能 → 值得了解
  • 如果你只是写 CRUD 应用 → 跟你没啥关系

什么场景用到

  • 客服电话自动化 → 用 Realtime API + Twilio SIP
  • 浏览器内语音交互 → 用 WebRTC
  • AI 语音助手 App → 用 Agents SDK
  • 不需要语音交互 → 不需要这个

对我有用吗?

维度收益代价
时间省掉自建 STT+LLM+TTS 链路的工程量(至少2-4周)学习 Realtime API 需要1-3天
金钱比自建管线少得多的运维成本音频 $32/$64 每 1M tokens,不便宜
精力端到端 S2S 架构减少调试环节厂商锁定风险,只能用 GPT

ROI 判断:如果你的语音产品月通话量在几千通以内,用 Realtime API 是划算的——省掉了搭建和调优 STT/TTS 管线的工程成本。但如果通话量上百万通,成本会很快爆炸,这时候 Deepgram + ElevenLabs 的模块化方案可能更划算。

喜闻乐见吗?

爽点

  • 工具调用终于靠谱了:之前语音代理调工具就像开盲盒,现在 ComplexFuncBench(复杂函数基准测试)从 49.7% 升到 66.5%
  • 字母数字识别大幅提升:转录准确率提升 10.23%,订单号、电话号码这种混合数字终于不乱了
  • 异步函数调用:AI 等工具返回时不再尬停,可以边等边聊"稍等一下哈"

"哇"的瞬间

官方 Demo 里,模型接了一个7位混合数字+字母的订单号,然后准确复述——这在之前的版本是做不到的。 — @kwindla

用户真实评价

正面:"工具调用稳定性优化了超过 25%,语音表现力显著提升" — @Comet (Perplexity 浏览器) 正面:"gpt-realtime-1.5 是 Scale AudioMultiChallenge 基准测试中表现最好的原生音频模型" — @pbbakkum (OpenAI 工程师) 吐槽(历史):"与高级语音模式相比,Realtime API 似乎被削弱了不少" — OpenAI 社区开发者


给独立开发者

技术栈

  • 模型: gpt-realtime-1.5(原生端到端语音转语音,非 STT+LLM+TTS 管线)
  • 协议: WebRTC(浏览器端)/ WebSocket(服务端)/ SIP(电话系统)
  • 音频编码: Opus(WebRTC 自带回声消除、降噪、增益控制)
  • SDK: OpenAI Agents SDK(首推 TypeScript,也支持 Python)
  • 上下文窗口: 32,768 tokens,输出最多 4,096 tokens
  • 指令+工具上限: 16,384 tokens

核心架构

gpt-realtime 的独特之处在于它是端到端 Speech-to-Speech (S2S) 架构。传统方案是三步链:语音转文字 → LLM 思考 → 文字转语音。gpt-realtime 把这三步合成一步——模型直接"听"语音、直接"说"语音,保留了语气、情绪等非文字信息。

推荐的生产架构是 Sideband(旁路)模式:浏览器通过 WebRTC 直接与 OpenAI 传输音频(低延迟),你的后端服务器通过 WebSocket 连接同一个会话 (session) 处理业务逻辑(工具调用、数据库查询等)。这样音频走最短路径,业务逻辑保持私密。

浏览器 ←──WebRTC──→ OpenAI Realtime API
                           ↕
你的后端 ←──WebSocket──→ (同一个session)

开源情况

  • 模型本身:不开源,纯 API
  • SDK 和示例:MIT 协议,GitHub 上有:
  • 类似开源项目:Qwen3-Omni(阿里,端到端多模态,支持 119 种语言)
  • 自己做难度:极高。端到端 S2S 模型需要海量音频训练数据和算力,不是独立开发者能碰的。但基于 API 构建产品,门槛不高。

商业模式

  • 变现方式:API 按 token 计费
  • 定价
    • 文本:$4/1M input, $16/1M output
    • 音频:$32/1M input, $64/1M output
    • 缓存输入:$0.40/1M(省97%!用好缓存是控制成本的关键)
  • 对比:比 gpt-4o-realtime-preview 降价 20%

巨头风险

这本身就是巨头(OpenAI)的产品。但从竞争角度看:

  • Google 有 Gemini 系列的音频能力,但 Realtime API 这种形态还没推出
  • Anthropic 的 Claude Voice 正在追赶,语音战争已经打响
  • 阿里 的 Qwen3-Omni 是开源搅局者
  • 真正的风险不是被替代,而是这个赛道是否会变成"基础设施化"——如果语音 AI 变成水电一样的基建,利润空间会被压缩

给产品经理

痛点分析

解决的核心问题:语音 AI 代理在关键时刻掉链子。

具体来说:

  1. 工具调用不靠谱 — AI 客服需要查订单、查库存时,以前经常调错工具或传错参数
  2. 指令不听话 — "不要用中文回复"结果蹦出中文来
  3. 多语言切换 — 用户说西班牙语,AI 坚持说英语

痛点有多痛:高频刚需。任何投入生产的语音代理都会遇到这些问题,它们直接决定了"能不能上线"。gpt-realtime-1.5 的改进直接对准这些痛点。

用户画像

  • 头部采用者:Perplexity(Comet 浏览器已集成)、Genspark(压力测试过双语翻译)
  • 典型客户:需要 AI 电话客服的中大型企业
  • 开发者画像:全栈开发者,有 WebRTC/WebSocket 经验,正在做语音产品

功能拆解

功能类型说明
指令遵循 +7%核心直接影响代理可用性
工具调用增强核心调用可靠性是生产部署的门槛
转录精度 +10.23%核心订单号、验证码等场景必需
多语言准确性核心国际化产品刚需
异步函数调用锦上添花等待时继续对话,体验更自然
占位响应锦上添花"稍等一下"这种话自动说
SIP 直连核心(电话场景)打通传统电话系统

竞品差异

维度gpt-realtime-1.5ElevenLabs AgentsDeepgram AgentVapi
架构端到端 S2S模块化 STT+LLM+TTSSTT/TTS + Agent API编排中间件
核心优势自然度最高、情绪感知语音质量最佳、声音克隆速度快(<300ms)、成本低灵活组合各厂商
LLM锁定是(仅限 GPT)否(支持多模型)部分否(支持多模型)
适合场景高价值对话(客服VIP线)品牌语音、有声内容高吞吐转录需要最佳组合方案
大致成本较高中等$0.13-0.31+/分钟

可借鉴的点

  1. Sideband 架构设计:音频走快通道,业务逻辑走安全通道——这种前后端分离思路值得学习
  2. Snapshot 版本控制:模型版本可以锁定(如 gpt-realtime-1.5-2026-02-23),保证行为一致性
  3. 渐进式降级:占位响应、空闲提示这些小功能,解决的是"AI 尬住"的体验问题

给科技博主

创始人故事

这不是一个创业产品,而是 OpenAI 的核心 API 产品线。但值得关注的人物:

  • Justin Uberti (@juberti):OpenAI Realtime API 工程负责人之一,WebRTC 领域的元老(他是 Google WebRTC 项目的早期核心工程师)。他发布了一个可以直接打电话试用的 Demo 号码:425-800-0042
  • Charlie Guo (@charlierguo):OpenAI DevRel,录制了官方 Demo 视频,展示了一个"AI 点餐"的完整流程
  • Peter Bakkum (@pbbakkum):OpenAI 工程师,分享了基准测试数据,称其为"Scale AudioMultiChallenge 上最佳原生音频模型"

争议点/讨论角度

  1. "语音战争"叙事:Anthropic 有 Claude Voice,Google 有 Gemini,阿里有 Qwen3-Omni,OpenAI 用 Realtime API 应战。这是一个 AI 巨头全面开打语音赛道的信号
  2. API vs 消费端的质量差距:开发者反复吐槽 Realtime API 不如 ChatGPT 的高级语音模式好用。OpenAI 到底是有意区分还是技术限制?
  3. 厂商锁定之争:S2S 端到端 vs 模块化,到底哪条路更好?很多开发者宁愿用 Deepgram + Claude + ElevenLabs 的组合,也不愿被锁在 OpenAI 生态里
  4. "AI 替代呼叫中心" 的伦理讨论:一位巴西开发者直接说"任何免下车餐厅 (drive-thru)、呼叫中心、客服都将被 AI 语音取代"

热度数据

  • PH: 274 票
  • Twitter: OpenAIDevs 官方推文 2109 次点赞, 175 次转发, 37.4 万次阅读
  • 生态采用: Perplexity Comet 浏览器首发集成
  • 技术社区: Latent Space 有深度技术分析文章 "The Missing Manual"

内容建议

  • 适合写的角度:"AI 语音战争 2026——三巨头的技术路线之争"
  • 蹭热点机会:结合 Perplexity Comet 集成,写"浏览器语音交互"的未来
  • 实操内容:20 分钟用 Agents SDK 搭一个语音代理(有现成 Demo)

给早期采用者

定价分析

层级价格包含功能够用吗?
文本输入$4/1M tokens系统指令、文本输入便宜
文本输出$16/1M tokens文本回复便宜
音频输入$32/1M tokens用户语音贵,主要成本来源
音频输出$64/1M tokensAI 语音回复最贵
缓存输入$0.40/1M tokens重复的系统指令省 97%,必须用

省钱技巧:善用缓存输入($0.40 vs $32),把系统指令设计成可缓存的形式。简短的系统提示也能大幅降低成本。

对比 mini 版:gpt-realtime-mini 音频输入/输出分别为 $10/$20 每 1M tokens,便宜约 70%,适合对精度要求不那么高的场景。

上手指南

  • 上手时间:20 分钟(用官方 SDK 示例)
  • 学习曲线:中等(需要理解 WebRTC 或 WebSocket)
  • 步骤
    1. 获取 OpenAI API Key
    2. 克隆 openai-realtime-agents 仓库
    3. 安装依赖,设置环境变量
    4. npm run dev 启动,浏览器打开 localhost:3000
    5. 或者直接打电话试用:425-800-0042

坑和吐槽

  1. 回声循环:AI 听到自己的声音以为是用户在说话,导致无限打断。解法:用好 WebRTC 自带的回声消除,别用 Firefox
  2. 指令别太长:系统提示超过 750 字符左右模型容易迷糊,精简为佳
  3. 转录不是真实时的:转录增量 (transcription deltas) 要等用户停止说话才返回,如果你需要实时字幕,这是个问题
  4. 和高级语音模式有差距:API 版本的语音自然度确实不如 ChatGPT App 里的,OpenAI 在持续改进
  5. Firefox 不行:回声消除效果差,推荐使用 Chrome/Safari/Edge

安全和隐私

  • 数据存储:OpenAI 服务器处理,可选欧盟数据驻留(eu.api.openai.com)
  • 隐私政策:遵循 OpenAI 数据使用政策,API 数据默认不用于训练(需确认最新条款)
  • Ephemeral Key:浏览器端用临时密钥,不暴露主 API Key

替代方案

替代品优势劣势
Deepgram + Claude + ElevenLabs灵活、不锁定、各取所长集成复杂、延迟叠加
Vapi一站式编排、支持多模型额外费用 $0.05/分钟、增加延迟
Qwen3-Omni(开源)免费、可自部署、支持 119 种语言质量待验证、需要自有 GPU
gpt-realtime-mini同生态、便宜 70%能力明显弱于完整版

给投资人

市场分析

  • 对话 AI 赛道:2025 年 $14.79B → 2026 年 $17.97B → 2034 年 $82.46B,复合年增长率 21%
  • 语音 AI 代理:2024 年 $2.4B → 2034 年 $47.5B,复合年增长率 34.8%
  • 驱动因素
    • 80% 的企业计划在 2026 年前将 AI 语音集成到客服中
    • 美国语音助手用户 2026 年预计达到 1.571 亿
    • 全球企业 AI 支出达 3910 亿美元

竞争格局

层级玩家定位
头部(模型层)OpenAI (gpt-realtime), Google (Gemini), Anthropic (Claude Voice)端到端语音 AI 模型
头部(语音层)ElevenLabs, Deepgram专精语音质量/速度
腰部(编排层)Vapi, Retell AI, Bland AI, Dasha语音代理平台
基础设施Twilio, LiveKit, Agora, Daily.co通信基础设施

Timing 分析

为什么是现在

  1. SIP 支持——语音 AI 终于能直接接入电话网络,打开了万亿级的传统呼叫中心市场
  2. 工具调用达到生产可用水平——从 49.7% 提升到 66.5%,虽然还不完美,但已经可以部署了
  3. Twilio 34.9 万+ 客户的渠道杠杆——通过 Twilio 集成,gpt-realtime 直接触达海量潜在客户
  4. Perplexity 等头部应用开始集成——从 API 提供者到生态节点,OpenAI 正在构建护城河

团队背景

  • OpenAI:AI 领域最强团队之一
  • Justin Uberti:WebRTC 元老,曾主导 Google 的 WebRTC 项目
  • Realtime API 团队:具备深厚的实时通信 + AI 模型交叉经验

融资情况

  • OpenAI:已融资超过 130 亿美元,估值约 1500 亿美元
  • 这不是一个需要融资的独立产品,而是 OpenAI API 生态的核心组件

结论

gpt-realtime-1.5 不是革命性更新,但它是让语音 AI 从"Demo 很酷"走向"生产能用"的关键一步。 工具调用提升 25%、转录提升 10%、指令遵循提升 7%,每一个数字背后都是一个之前让开发者抓狂的 bug 被修复了。

用户类型建议
开发者必须关注 — 如果在做语音产品,这是目前最强的端到端 S2S API,SDK 和示例代码都很完善
产品经理值得跟进 — 竞品对比表值得收藏,S2S vs 模块化的架构选择是关键决策
博主可以写 — "AI 语音战争"是好角度,但 274 票说明 PH 上的热度一般,更适合技术深度内容
早期采用者谨慎乐观 — 上手不难(20 分钟),但音频成本不低,建议先用 mini 版试水
投资人语音 AI 赛道确认 — 2034 年 475 亿美元的预期,OpenAI 在模型层占据优势,但编排层和基础设施层仍有机会

资源链接

资源链接
官网openai.com
API 文档gpt-realtime-1.5 模型
语音代理指南Voice Agents Guide
Realtime API 文档Realtime API
GitHub (多代理示例)openai-realtime-agents
GitHub (JS SDK)openai-agents-js
GitHub (Python SDK)openai-agents-python
官方 Demohello-realtime.val.run
电话 Demo425-800-0042
Latent Space 深度分析The Missing Manual
Deepgram VAQI 对比VAQI 基准测试
Twitter @OpenAIDevs发布推文
Twilio 集成教程Twilio + OpenAI

2026-02-27 | Trend-Tracker v7.3

一句话判断

gpt-realtime-1.5 是让语音 AI 从 Demo 走向生产环境的关键一步。通过解决工具调用和转录等核心痛点,显著提升了商用可行性,是开发者必须关注的基础设施更新。

常见问题

关于 gpt-realtime-1.5 by OpenAI 的常见问题

OpenAI 实时语音模型的升级版,让 AI 语音代理能更靠谱地听指令、调工具、说多国语言。

gpt-realtime-1.5 by OpenAI 的主要功能包括:工具调用增强 (+25%)、转录精度优化 (+10.23%)、支持异步函数调用、SIP 电话直连、占位符响应。

音频输入 $32/1M tokens, 输出 $64/1M tokens;文本输入 $4/1M tokens, 输出 $16/1M tokens;缓存输入 $0.40/1M tokens。

正在构建语音 AI 产品的开发者、企业 AI 客服团队、需要多语言语音交互的国际化产品方。

gpt-realtime-1.5 by OpenAI 的主要竞品包括:ElevenLabs Agents (音质领先), Deepgram Agent (低延迟低成本), Vapi (编排中间件), Qwen3-Omni (开源)。。

数据来源: ProductHunt2026年2月26日
最后更新: