Lyria 3 by Google DeepMind:Google 终于下场做 AI 音乐了,但迟到的巨头还有戏吗?
2026-02-22 | ProductHunt | 官网
打开 Gemini App,点“创建音乐”,输入一句话或一张照片,30 秒后你就有了一首带人声、歌词和封面的原创歌曲。这就是 Lyria 3 做的事。
30 秒快速判断
这 App 干嘛的:Google 把最强音乐生成模型 Lyria 3 塞进了 Gemini App,任何人都能用文字或图片生成 30 秒带人声的歌曲,完全免费。
值不值得关注:值得关注,但先别兴奋过头。如果你只想要一段有趣的短视频配乐或朋友圈玩具,这个已经够用了。但如果你需要完整歌曲,Suno 和 Udio 仍然领先一大截。Google 的入场意味着 AI 音乐赛道正式进入巨头竞争阶段,这才是真正值得关注的信号。
与我有关三问
与我有关吗?
目标用户是谁:
- Gemini 的数亿现有用户(18 岁以上)
- 短视频/社交媒体内容创作者
- 想玩音乐但没有音乐基础的普通人
- YouTube Shorts 创作者(通过 Dream Track 功能)
我是吗? 如果你符合以下任何一条,你就是目标用户:
- 你经常需要给视频找配乐,但不想花钱买版权音乐
- 你想给朋友发个搞笑的生日歌但不会写歌
- 你是 YouTube/抖音创作者,需要快速配乐
- 你单纯想体验一下 AI 创作的魅力
什么场景会用到:
- 拍了一张旅行照片 → 让 Lyria 3 配一首风格匹配的 30 秒歌曲
- 短视频需要背景音乐 → 一句话生成,免费,不用担心版权纠纷
- 整活/搞笑 → 输入“一首关于我家猫以为自己是狮子的摇滚歌” → 30 秒后笑出声
- 不适合:需要完整歌曲、专业音乐制作、商业唱片发行
对我有用吗?
| 维度 | 收益 | 代价 |
|---|---|---|
| 时间 | 30 秒出歌,省去找版权音乐的数小时 | 学习成本约 5 分钟,打开 Gemini 就能用 |
| 金钱 | 完全免费,不需要额外订阅 | $0(有每日生成次数限制) |
| 精力 | 不需要任何音乐知识 | 想要好结果需要学习如何写 Prompt |
ROI 判断:对于内容创作者来说,这是个“白嫖”的好工具。5 分钟学会,0 成本使用,虽然只有 30 秒但对短视频配乐足够。投入产出比极高。但如果你是音乐人或需要专业级输出,ROI 接近于零——30 秒的“土味”歌词帮不了你什么。
喜闻乐见吗?
爽点在哪:
- 零门槛到出歌的速度感:从没做过音乐的人,30 秒内就能听到“自己的歌”,这个体验确实让人直呼“哇塞”
- 图片转音乐:拍张照片就能变成一首歌,这是 Suno/Udio 做不到的,也是 Lyria 3 最独特的功能
- 不用离开 Gemini:已经在用 Gemini 的人,不需要注册新服务,无缝衔接
“哇”的瞬间:
“我试用了 Gemini 最新的 Lyria 3 音乐生成器,它居然把我的待办清单变成了一首朋克摇滚赞歌!” —— Tom's Guide 评测
用户真实评价:
正面:“我测试过几十种 AI 音乐工具,但 Lyria 3 很不一样,因为它用起来太简单了。” —— 评测者 中立:“它能用,也很好玩,可能会让没用过 Suno 或 Udio 的人感到惊艳。但对于老玩家来说,它暂时还无法替代现有的工作流。” —— Decrypt 评测 吐槽:“这大概是现在这个世界最不需要的东西。” —— ProductHunt 评论者 犀利:“Gemini 现在开始为用户批量生产‘音乐废料’了。” —— The Register
给独立开发者
技术栈
- 核心架构:多模态扩散 Transformer (MMDiT)
- 音频生成:潜变量扩散 (Latent Diffusion) + 修正流 (Rectified Flow)
- 文本理解:LLM 类语言编码器
- 音频输出:48kHz 立体声,支持 WAV/MP3/FLAC
- 实时流式:基于 MusicLM 的块自回归,WebSocket 双向连接,2 秒分块生成
- 水印技术:SynthID 不可感知水印
- 基础设施:Google Cloud / Vertex AI
核心功能实现
Lyria 3 的核心是一个多模态扩散模型。它把文本/图片/视频统一编码到一个“共享嵌入空间”,然后通过扩散过程从高斯噪声逐步去噪生成 48kHz 的音频波形。简单来说:就是把 Stable Diffusion 生成图片的那套逻辑搬到了音频领域。
最有意思的是它的实时版本 Lyria RealTime,利用 WebSocket 保持双向连接,每 2 秒生成一个音频分块,一边参考之前的上下文保持“律动”,一边根据用户的控制实时调整风格。Google 还做了个 VST 插件 The Infinite Crate,让你能在专业音频工作站 (DAW) 里直接调用。
开源情况
- 开源吗:不开源,Google 专有技术
- 类似开源项目:Meta 的 MusicGen、Stability AI 的 Stable Audio
- API 现状:Lyria RealTime API 已经可用(实时流式、仅器乐),Lyria 2 可通过 Vertex AI 调用(lyria-002),Lyria 3 完整 API 尚未公开
- 自己做难度:极高。音乐生成比文本/图片难得多——需要同时处理旋律、和声、节奏、音色,还要保持长程一致性。没有 Google 级别的算力和海量数据,独立开发者基本做不到同等质量
商业模式
- 变现方式:不直接收费,作为 Gemini 生态的一部分,旨在增加用户粘性和 Google AI 订阅的含金量
- 间接变现:推动 Google AI Plus/Pro/Ultra 订阅(提供更高生成限额)
- 用户量:依托 Gemini 全球数亿级的用户基数
巨头风险
这个产品本身就是巨头下场的产物。对于 Suno 和 Udio 来说,Google 的入场是一个严重的威胁——Lyria 3 免费、集成在数亿用户的 Gemini 里、背靠 YouTube 生态。但目前 30 秒的时长限制和功能差距意味着 Suno/Udio 还有窗口期。关键问题是:Google 追赶的速度会有多快?
给产品经理
痛点分析
- 解决什么问题:让没有任何音乐背景的人也能进行音乐“创作”
- 痛点有多痛:中等偏低。对内容创作者来说是高频需求(每个视频都需要配乐),但之前的解决方案(版权音乐库、Suno/Udio)已经很成熟。Lyria 3 的核心优势在于“免费”和“原生集成”
用户画像
- 核心用户:Gemini 现有用户中的内容创作者
- 次级用户:想尝鲜 AI 音乐的普通大众
- 不是目标用户:专业音乐人、需要完整歌曲长度的创作者
功能拆解
| 功能 | 类型 | 说明 |
|---|---|---|
| 文字生成音乐 | 核心 | 一句话描述 → 30 秒带人声歌曲 |
| 图片生成音乐 | 核心/差异化 | 上传照片 → 自动匹配情绪和风格 |
| 自动生成歌词 | 核心 | 无需用户动脑写词 |
| 自动生成封面 | 锦上添花 | AI 生成配套的视觉艺术图 |
| 多语言支持 | 锦上添花 | 支持 8 种语言的歌词和人声 |
| SynthID 水印 | 安全合规 | 所有输出均带有不可感知的 AI 标识 |
竞品差异
| 维度 | Lyria 3 (Google) | Suno v5 | Udio |
|---|---|---|---|
| 时长 | 30 秒 | 最长 4 分钟 | 最长 2 分钟 |
| 价格 | 免费 | $0-30/月 | $0-30/月 |
| 最佳场景 | 短视频配乐、社交娱乐 | 完整歌曲、专业创作 | 细粒度控制 |
| 独特功能 | 图片/视频转音乐 | AI 原生 DAW (Studio) | Prompt 强度滑块 |
| 生态 | Gemini + YouTube | 独立平台 | 环球音乐收购背景 |
| 版权风险 | Google 声称“合规” | 正在被 RIAA 起诉 | 已与华纳达成和解 |
可借鉴的点
- “集成优势”:不做独立 App,而是嵌入已有数亿用户的平台。这种降维打击比任何营销都有效
- 多模态思路:引入图片转音乐,开辟了新的交互范式,进一步降低了创作门槛
- “娱乐化”定位:初期不追求专业性,避开版权争议的主战场,先以“好玩的工具”占领用户心智
给科技博主
创始人/团队故事
这不是一个典型的创业故事,而是 Google 内部一条“十年磨一剑”的产品线:
- 2016 年:Douglas Eck 在 Google Brain 创立 Magenta 项目,探索 AI 与艺术创作的边界
- 2023 年:Google DeepMind 发布 MusicLM,首次展示文本生成音乐的能力
- 2024 年:发布 Lyria 1(YouTube 上的 Dream Track),与知名音乐人合作测试
- 2025 年:Lyria 2 开放 API,推出 Lyria RealTime 实时生成技术
- 2026 年 2 月:Lyria 3 正式集成到 Gemini App,面向全球用户开放
核心团队包括 Andrea Agostinelli 等资深开发者,而项目的精神导师 Douglas Eck 被特别致谢提供了“富有洞察力的指导”。
争议点/讨论角度
-
“巨头迟到论”:Decrypt 的评测标题直接写道“我们试用了,它来得太晚,做得太少”。Google 用十年做到的事,Suno 两年就超越了。大厂的研发优势在快速迭代的 AI 赛道是否正在失效?
-
“音乐废料”还是“创意民主化”:媒体把 Lyria 3 的输出称为“musical slop”,但 Google 把它包装成“创意表达”。这到底是降低了创作门槛,还是稀释了音乐的价值?
-
“平庸化导致的过时”:The Next Web 提出了一个精辟观点——Lyria 3 不是要替代音乐人,而是让平台不再需要他们。当任何人都能 30 秒生成一首“还行”的歌,专业音乐人的生存空间在哪里?
-
训练数据的“原罪”:Billboard 曾报道 Google DeepMind 存在“先训练再征求许可”的行为。虽然 Google 现在强调版权合规,但不公开训练细节的做法依然让行业存疑。
热度数据
- PH 排名:仅 3 票——几乎没有热度。可能是因为这被视为 Google 的功能更新而非独立新产品,PH 社区对大厂更新兴趣寥寥
- 媒体报道:爆炸级。TechCrunch、Billboard、Tom's Guide 等主流媒体均在第一时间头条报道
- 社交媒体:Twitter/X 上有大量用户分享生成的歌曲,Google DeepMind 官方推文引发了广泛讨论
内容建议
- 深度稿件:“Google 迟到的音乐野心”——梳理从 Magenta 到 Lyria 3 的十年进化史
- 短视频整活:发起一个“用 Lyria 3 给我的奇葩照片配乐”系列,产出快且易传播
- 横向测评:用同一个 Prompt 分别在 Lyria 3、Suno、Udio 上生成,做一场“AI 歌王争霸赛”
给早期采用者
定价分析
| 层级 | 价格 | 包含功能 | 够用吗? |
|---|---|---|---|
| 免费 (Gemini) | $0 | 30 秒歌曲生成,有每日限额 | 日常玩耍绰绰有余 |
| Google AI Plus | ~$20/月 | 更高生成限额 + Gemini 全套功能 | 高频内容创作者首选 |
| 竞品 Suno Pro | $10/月 | 4 分钟完整歌曲 + 专业工作站 | 需要做完整单曲选这个 |
| 竞品 Udio Standard | $10/月 | 2 分钟歌曲 + 细粒度控制 | 追求极致音质选这个 |
上手指南
- 上手时间:5 分钟
- 学习曲线:极低
- 操作步骤:
- 打开 Gemini App 或网页版
- 点击工具栏的“创建音乐”按钮
- 输入描述(如:“一首关于周一加班的 Lo-fi 慢歌,带点无奈的幽默”)或上传照片
- 等待几秒,播放生成的歌曲
- 不满意?直接回复修改要求(“节奏快一点”、“换成女声”)
Prompt 小技巧:
- 采用“风格 + 情绪 + 具体内容”的组合,例如:“一首滑稽的 R&B 慢歌,讲述一只找不到另一只袜子的袜子”
- 配合照片使用效果通常比纯文字更惊艳
- 想要地道的中文歌词,建议直接用中文描述
坑点提醒
- 30 秒真的太短了:这是目前最大的槽点,只能算是个片段。想要完整歌曲请移步 Suno
- 歌词质量忽高忽低:自动生成的歌词有时很“土”或逻辑不通,别指望它能写出诗意
- 非主流风格表现一般:流行、R&B、轻 Hip-hop 效果不错,但民族音乐或实验电子乐表现平平
- 暂无 API 接口:想在自己的 App 里集成 Lyria 3?目前还做不到,只有器乐版的 RealTime API 可用
- 每日限额限制:免费用户有次数限制,且 Google 尚未公布具体的计算规则
安全与隐私
- 数据存储:存储在 Google 云端服务器
- AI 水印:所有输出均带 SynthID 不可感知水印,可被检测工具识别
- 隐私政策:遵循 Google 标准隐私协议
- 艺人保护:设有过滤机制防止模仿特定知名艺人,但 Google 也承认并非万无一失
替代方案
| 替代品 | 优势 | 劣势 |
|---|---|---|
| Suno v5 | 4 分钟完整歌曲、AI 工作站、目前最强质量 | 需付费订阅、面临版权诉讼 |
| Udio | 极致音质、精细化控制 | 需付费、被收购后更新放缓 |
| Meta MusicGen | 开源、可本地部署 | 质量和易用性稍逊一筹 |
| Stable Audio | 适合生成音效和素材 | 社区生态相对较小 |
给投资人
市场分析
- AI 音乐生成软件市场:预计从 2026 年的 11.8 亿美元增长至 2036 年的 72.9 亿美元,年复合增长率 20.1%
- 驱动因素:短视频/播客/游戏等内容创作爆发、版权音乐成本高企、AI 技术突破高保真门槛
竞争格局
| 层级 | 玩家 | 定位 |
|---|---|---|
| 头部 | Suno (独立) | AI 原生音乐创作,功能最强 |
| 头部 | Google Lyria 3 | 巨头生态集成,免费 + 海量用户 |
| 腰部 | Udio (Universal) | 转向正版授权模式,追求精细控制 |
| 新进入者 | OpenAI AudioCanvas | 传闻中的 ChatGPT 实时音乐功能 |
| 开源 | Meta MusicGen | 行业基准开源模型 |
Timing 分析
- 为什么是现在:2024-2025 年 AI 音乐完成了从 Demo 到产品的跨越,Suno 证明了市场需求。2026 年是巨头利用生态优势入场收割的节点
- 技术成熟度:扩散模型在音频领域已达 48kHz 高保真标准,实时生成技术也已落地
- 法律环境:RIAA 对 Suno/Udio 的诉讼正在重塑行业规则。Google 采取“先做合规、再推大众”的策略旨在规避法律风险
团队背景
- 母公司:Google / Alphabet(市值约 2 万亿美元)
- 研发团队:Google DeepMind,全球顶尖 AI 研究机构
- 核心人物:Douglas Eck(Magenta 创始人)、Andrea Agostinelli(核心开发者)
融资与信号
- Lyria 3 为 Google 内部孵化,无需独立融资
- 行业对比:Suno 2024 年融资 1.25 亿美元;Udio 已被环球音乐收购
- 市场信号:巨头亲自下场验证了赛道价值,但独立初创公司的生存窗口正在收窄,未来可能向专业化或版权合规化转型
结论
一句话判断:Google 用 Lyria 3 做了一个“够好的免费玩具”。它或许不会取代 Suno,但它会让数亿人第一次体验到 AI 音乐创作——这种“全民教育”的效果,长期来看比产品本身更有价值。
| 用户类型 | 建议 |
|---|---|
| 独立开发者 | 观望。Lyria 3 API 尚未开放,可以先玩玩 Lyria RealTime API 探索实时交互场景 |
| 产品经理 | 关注“图片转音乐”的交互范式,多模态输入降低门槛是大势所趋 |
| 科技博主 | 值得大写特写。巨头 vs 创业公司的叙事、AI 对音乐行业的冲击都是流量密码 |
| 早期采用者 | 值得一试。免费且上手快,适合生成搞笑歌曲发朋友圈,但别指望它做专业音乐 |
| 投资人 | 赛道已被巨头验证,关注 Suno 向专业级进化的路线以及版权诉讼的最终定调 |
资源链接
| 资源 | 链接 |
|---|---|
| 官网 | https://gemini.google/overview/music-generation |
| DeepMind Lyria 专题页 | https://deepmind.google/models/lyria/ |
| Prompt 编写指南 | https://deepmind.google/models/lyria/prompt-guide/ |
| Lyria RealTime API | https://ai.google.dev/gemini-api/docs/music-generation |
| Google 官方博客公告 | https://blog.google/innovation-and-ai/products/gemini-app/lyria-3/ |
| 竞品 Suno | https://suno.com |
| 竞品 Udio | https://udio.com |
2026-02-22 | Trend-Tracker v7.3