gpt-realtime-1.5 by OpenAI 是什么？

OpenAI 实时语音模型的升级版，让 AI 语音代理能更靠谱地听指令、调工具、说多国语言。

gpt-realtime-1.5 by OpenAI 有哪些主要功能？

gpt-realtime-1.5 by OpenAI 的主要功能包括：工具调用增强 (+25%)、转录精度优化 (+10.23%)、支持异步函数调用、SIP 电话直连、占位符响应。

gpt-realtime-1.5 by OpenAI 如何收费？

音频输入 $32/1M tokens, 输出 $64/1M tokens；文本输入 $4/1M tokens, 输出 $16/1M tokens；缓存输入 $0.40/1M tokens。

gpt-realtime-1.5 by OpenAI 适合谁使用？

正在构建语音 AI 产品的开发者、企业 AI 客服团队、需要多语言语音交互的国际化产品方。

gpt-realtime-1.5 by OpenAI 有哪些竞品？

gpt-realtime-1.5 by OpenAI 的主要竞品包括：ElevenLabs Agents (音质领先), Deepgram Agent (低延迟低成本), Vapi (编排中间件), Qwen3-Omni (开源)。。

gpt-realtime-1.5：OpenAI 语音代理的"认真干活"版本

2026-02-27 | ProductHunt | 官网 | API文档

OpenAI Realtime API

OpenAI Realtime API 官方题图 — "Agent online" 界面，代表语音代理已就绪

30秒快速判断

这东西干嘛的：OpenAI 的实时语音模型升级版，让 AI 语音代理能更靠谱地听指令、调工具、说多国语言。说白了，就是让你的 AI 客服电话终于不那么"傻"了。

值不值得关注：如果你在做语音 AI 产品，这是必须关注的。gpt-realtime-1.5 在工具调用 (tool calling) 可靠性上有实质提升（+25%以上），这是之前开发者吐槽最多的痛点。但如果你只是普通用户，这个更新跟你没啥关系——这是纯 API 产品，面向开发者。

与我有关三问

与我有关吗？

目标用户：正在构建或打算构建语音 AI 产品的开发者和企业。具体来说：

做 AI 客服电话系统的团队
构建语音助手（比如智能点餐、预约调度）的开发者
需要多语言语音交互的国际化产品

我是目标用户吗：

如果你在做语音 AI 产品 → 你就是核心用户
如果你是做 SaaS 想加语音功能 → 值得了解
如果你只是写 CRUD 应用 → 跟你没啥关系

什么场景用到：

客服电话自动化 → 用 Realtime API + Twilio SIP
浏览器内语音交互 → 用 WebRTC
AI 语音助手 App → 用 Agents SDK
不需要语音交互 → 不需要这个

对我有用吗？

维度	收益	代价
时间	省掉自建 STT+LLM+TTS 链路的工程量（至少2-4周）	学习 Realtime API 需要1-3天
金钱	比自建管线少得多的运维成本	音频 $32/$64 每 1M tokens，不便宜
精力	端到端 S2S 架构减少调试环节	厂商锁定风险，只能用 GPT

ROI 判断：如果你的语音产品月通话量在几千通以内，用 Realtime API 是划算的——省掉了搭建和调优 STT/TTS 管线的工程成本。但如果通话量上百万通，成本会很快爆炸，这时候 Deepgram + ElevenLabs 的模块化方案可能更划算。

喜闻乐见吗？

爽点：

工具调用终于靠谱了：之前语音代理调工具就像开盲盒，现在 ComplexFuncBench（复杂函数基准测试）从 49.7% 升到 66.5%
字母数字识别大幅提升：转录准确率提升 10.23%，订单号、电话号码这种混合数字终于不乱了
异步函数调用：AI 等工具返回时不再尬停，可以边等边聊"稍等一下哈"

"哇"的瞬间：

官方 Demo 里，模型接了一个7位混合数字+字母的订单号，然后准确复述——这在之前的版本是做不到的。 — @kwindla

用户真实评价：

正面："工具调用稳定性优化了超过 25%，语音表现力显著提升" — @Comet (Perplexity 浏览器) 正面："gpt-realtime-1.5 是 Scale AudioMultiChallenge 基准测试中表现最好的原生音频模型" — @pbbakkum (OpenAI 工程师) 吐槽（历史）："与高级语音模式相比，Realtime API 似乎被削弱了不少" — OpenAI 社区开发者

给独立开发者

技术栈

模型: gpt-realtime-1.5（原生端到端语音转语音，非 STT+LLM+TTS 管线）
协议: WebRTC（浏览器端）/ WebSocket（服务端）/ SIP（电话系统）
音频编码: Opus（WebRTC 自带回声消除、降噪、增益控制）
SDK: OpenAI Agents SDK（首推 TypeScript，也支持 Python）
上下文窗口: 32,768 tokens，输出最多 4,096 tokens
指令+工具上限: 16,384 tokens

核心架构

gpt-realtime 的独特之处在于它是端到端 Speech-to-Speech (S2S) 架构。传统方案是三步链：语音转文字 → LLM 思考 → 文字转语音。gpt-realtime 把这三步合成一步——模型直接"听"语音、直接"说"语音，保留了语气、情绪等非文字信息。

推荐的生产架构是 Sideband（旁路）模式：浏览器通过 WebRTC 直接与 OpenAI 传输音频（低延迟），你的后端服务器通过 WebSocket 连接同一个会话 (session) 处理业务逻辑（工具调用、数据库查询等）。这样音频走最短路径，业务逻辑保持私密。

浏览器 ←──WebRTC──→ OpenAI Realtime API
                           ↕
你的后端 ←──WebSocket──→ (同一个session)

开源情况

模型本身：不开源，纯 API
SDK 和示例：MIT 协议，GitHub 上有：
- openai-realtime-agents — 20分钟搭出多代理语音 App
- openai-agents-js — TypeScript 框架
- openai-voice-agent-sdk-sample — 快速上手示例
类似开源项目：Qwen3-Omni（阿里，端到端多模态，支持 119 种语言）
自己做难度：极高。端到端 S2S 模型需要海量音频训练数据和算力，不是独立开发者能碰的。但基于 API 构建产品，门槛不高。

商业模式

变现方式：API 按 token 计费
定价：
- 文本：$4/1M input, $16/1M output
- 音频：$32/1M input, $64/1M output
- 缓存输入：$0.40/1M（省97%！用好缓存是控制成本的关键）
对比：比 gpt-4o-realtime-preview 降价 20%

巨头风险

这本身就是巨头（OpenAI）的产品。但从竞争角度看：

Google 有 Gemini 系列的音频能力，但 Realtime API 这种形态还没推出
Anthropic 的 Claude Voice 正在追赶，语音战争已经打响
阿里的 Qwen3-Omni 是开源搅局者
真正的风险不是被替代，而是这个赛道是否会变成"基础设施化"——如果语音 AI 变成水电一样的基建，利润空间会被压缩

给产品经理

痛点分析

解决的核心问题：语音 AI 代理在关键时刻掉链子。

具体来说：

工具调用不靠谱 — AI 客服需要查订单、查库存时，以前经常调错工具或传错参数
指令不听话 — "不要用中文回复"结果蹦出中文来
多语言切换 — 用户说西班牙语，AI 坚持说英语

痛点有多痛：高频刚需。任何投入生产的语音代理都会遇到这些问题，它们直接决定了"能不能上线"。gpt-realtime-1.5 的改进直接对准这些痛点。

用户画像

头部采用者：Perplexity（Comet 浏览器已集成）、Genspark（压力测试过双语翻译）
典型客户：需要 AI 电话客服的中大型企业
开发者画像：全栈开发者，有 WebRTC/WebSocket 经验，正在做语音产品

功能拆解

功能	类型	说明
指令遵循 +7%	核心	直接影响代理可用性
工具调用增强	核心	调用可靠性是生产部署的门槛
转录精度 +10.23%	核心	订单号、验证码等场景必需
多语言准确性	核心	国际化产品刚需
异步函数调用	锦上添花	等待时继续对话，体验更自然
占位响应	锦上添花	"稍等一下"这种话自动说
SIP 直连	核心（电话场景）	打通传统电话系统

竞品差异

维度	gpt-realtime-1.5	ElevenLabs Agents	Deepgram Agent	Vapi
架构	端到端 S2S	模块化 STT+LLM+TTS	STT/TTS + Agent API	编排中间件
核心优势	自然度最高、情绪感知	语音质量最佳、声音克隆	速度快(<300ms)、成本低	灵活组合各厂商
LLM锁定	是（仅限 GPT）	否（支持多模型）	部分	否（支持多模型）
适合场景	高价值对话（客服VIP线）	品牌语音、有声内容	高吞吐转录	需要最佳组合方案
大致成本	较高	中等	低	$0.13-0.31+/分钟

可借鉴的点

Sideband 架构设计：音频走快通道，业务逻辑走安全通道——这种前后端分离思路值得学习
Snapshot 版本控制：模型版本可以锁定（如 gpt-realtime-1.5-2026-02-23），保证行为一致性
渐进式降级：占位响应、空闲提示这些小功能，解决的是"AI 尬住"的体验问题

给科技博主

创始人故事

这不是一个创业产品，而是 OpenAI 的核心 API 产品线。但值得关注的人物：

Justin Uberti (@juberti)：OpenAI Realtime API 工程负责人之一，WebRTC 领域的元老（他是 Google WebRTC 项目的早期核心工程师）。他发布了一个可以直接打电话试用的 Demo 号码：425-800-0042
Charlie Guo (@charlierguo)：OpenAI DevRel，录制了官方 Demo 视频，展示了一个"AI 点餐"的完整流程
Peter Bakkum (@pbbakkum)：OpenAI 工程师，分享了基准测试数据，称其为"Scale AudioMultiChallenge 上最佳原生音频模型"

争议点/讨论角度

"语音战争"叙事：Anthropic 有 Claude Voice，Google 有 Gemini，阿里有 Qwen3-Omni，OpenAI 用 Realtime API 应战。这是一个 AI 巨头全面开打语音赛道的信号
API vs 消费端的质量差距：开发者反复吐槽 Realtime API 不如 ChatGPT 的高级语音模式好用。OpenAI 到底是有意区分还是技术限制？
厂商锁定之争：S2S 端到端 vs 模块化，到底哪条路更好？很多开发者宁愿用 Deepgram + Claude + ElevenLabs 的组合，也不愿被锁在 OpenAI 生态里
"AI 替代呼叫中心" 的伦理讨论：一位巴西开发者直接说"任何免下车餐厅 (drive-thru)、呼叫中心、客服都将被 AI 语音取代"

热度数据

PH: 274 票
Twitter: OpenAIDevs 官方推文 2109 次点赞, 175 次转发, 37.4 万次阅读
生态采用: Perplexity Comet 浏览器首发集成
技术社区: Latent Space 有深度技术分析文章 "The Missing Manual"

内容建议

适合写的角度："AI 语音战争 2026——三巨头的技术路线之争"
蹭热点机会：结合 Perplexity Comet 集成，写"浏览器语音交互"的未来
实操内容：20 分钟用 Agents SDK 搭一个语音代理（有现成 Demo）

给早期采用者

定价分析

层级	价格	包含功能	够用吗？
文本输入	$4/1M tokens	系统指令、文本输入	便宜
文本输出	$16/1M tokens	文本回复	便宜
音频输入	$32/1M tokens	用户语音	贵，主要成本来源
音频输出	$64/1M tokens	AI 语音回复	最贵
缓存输入	$0.40/1M tokens	重复的系统指令	省 97%，必须用

省钱技巧：善用缓存输入（$0.40 vs $32），把系统指令设计成可缓存的形式。简短的系统提示也能大幅降低成本。

对比 mini 版：gpt-realtime-mini 音频输入/输出分别为 $10/$20 每 1M tokens，便宜约 70%，适合对精度要求不那么高的场景。

上手指南

上手时间：20 分钟（用官方 SDK 示例）
学习曲线：中等（需要理解 WebRTC 或 WebSocket）
步骤：
1. 获取 OpenAI API Key
2. 克隆 openai-realtime-agents 仓库
3. 安装依赖，设置环境变量
4. npm run dev 启动，浏览器打开 localhost:3000
5. 或者直接打电话试用：425-800-0042

坑和吐槽

回声循环：AI 听到自己的声音以为是用户在说话，导致无限打断。解法：用好 WebRTC 自带的回声消除，别用 Firefox
指令别太长：系统提示超过 750 字符左右模型容易迷糊，精简为佳
转录不是真实时的：转录增量 (transcription deltas) 要等用户停止说话才返回，如果你需要实时字幕，这是个问题
和高级语音模式有差距：API 版本的语音自然度确实不如 ChatGPT App 里的，OpenAI 在持续改进
Firefox 不行：回声消除效果差，推荐使用 Chrome/Safari/Edge

安全和隐私

数据存储：OpenAI 服务器处理，可选欧盟数据驻留（eu.api.openai.com）
隐私政策：遵循 OpenAI 数据使用政策，API 数据默认不用于训练（需确认最新条款）
Ephemeral Key：浏览器端用临时密钥，不暴露主 API Key

替代方案

替代品	优势	劣势
Deepgram + Claude + ElevenLabs	灵活、不锁定、各取所长	集成复杂、延迟叠加
Vapi	一站式编排、支持多模型	额外费用 $0.05/分钟、增加延迟
Qwen3-Omni（开源）	免费、可自部署、支持 119 种语言	质量待验证、需要自有 GPU
gpt-realtime-mini	同生态、便宜 70%	能力明显弱于完整版

给投资人

市场分析

对话 AI 赛道：2025 年 $14.79B → 2026 年 $17.97B → 2034 年 $82.46B，复合年增长率 21%
语音 AI 代理：2024 年 $2.4B → 2034 年 $47.5B，复合年增长率 34.8%
驱动因素：
- 80% 的企业计划在 2026 年前将 AI 语音集成到客服中
- 美国语音助手用户 2026 年预计达到 1.571 亿
- 全球企业 AI 支出达 3910 亿美元

竞争格局

层级	玩家	定位
头部（模型层）	OpenAI (gpt-realtime), Google (Gemini), Anthropic (Claude Voice)	端到端语音 AI 模型
头部（语音层）	ElevenLabs, Deepgram	专精语音质量/速度
腰部（编排层）	Vapi, Retell AI, Bland AI, Dasha	语音代理平台
基础设施	Twilio, LiveKit, Agora, Daily.co	通信基础设施

Timing 分析

为什么是现在：

SIP 支持——语音 AI 终于能直接接入电话网络，打开了万亿级的传统呼叫中心市场
工具调用达到生产可用水平——从 49.7% 提升到 66.5%，虽然还不完美，但已经可以部署了
Twilio 34.9 万+ 客户的渠道杠杆——通过 Twilio 集成，gpt-realtime 直接触达海量潜在客户
Perplexity 等头部应用开始集成——从 API 提供者到生态节点，OpenAI 正在构建护城河

团队背景

OpenAI：AI 领域最强团队之一
Justin Uberti：WebRTC 元老，曾主导 Google 的 WebRTC 项目
Realtime API 团队：具备深厚的实时通信 + AI 模型交叉经验

融资情况

OpenAI：已融资超过 130 亿美元，估值约 1500 亿美元
这不是一个需要融资的独立产品，而是 OpenAI API 生态的核心组件

结论

gpt-realtime-1.5 不是革命性更新，但它是让语音 AI 从"Demo 很酷"走向"生产能用"的关键一步。 工具调用提升 25%、转录提升 10%、指令遵循提升 7%，每一个数字背后都是一个之前让开发者抓狂的 bug 被修复了。

用户类型	建议
开发者	必须关注 — 如果在做语音产品，这是目前最强的端到端 S2S API，SDK 和示例代码都很完善
产品经理	值得跟进 — 竞品对比表值得收藏，S2S vs 模块化的架构选择是关键决策
博主	可以写 — "AI 语音战争"是好角度，但 274 票说明 PH 上的热度一般，更适合技术深度内容
早期采用者	谨慎乐观 — 上手不难（20 分钟），但音频成本不低，建议先用 mini 版试水
投资人	语音 AI 赛道确认 — 2034 年 475 亿美元的预期，OpenAI 在模型层占据优势，但编排层和基础设施层仍有机会

资源链接

资源	链接
官网	openai.com
API 文档	gpt-realtime-1.5 模型
语音代理指南	Voice Agents Guide
Realtime API 文档	Realtime API
GitHub (多代理示例)	openai-realtime-agents
GitHub (JS SDK)	openai-agents-js
GitHub (Python SDK)	openai-agents-python
官方 Demo	hello-realtime.val.run
电话 Demo	425-800-0042
Latent Space 深度分析	The Missing Manual
Deepgram VAQI 对比	VAQI 基准测试
Twitter @OpenAIDevs	发布推文
Twilio 集成教程	Twilio + OpenAI

2026-02-27 | Trend-Tracker v7.3

gpt-realtime-1.5 by OpenAI