Gemini Embedding 2:Google 终于把五种媒体塞进了同一个向量空间
2026-03-11 | ProductHunt | 官方博客
30秒快速判断
这东西干嘛的:一个 API,把文本、图片、视频、音频、PDF 全部变成同一个向量空间里的数字,让你可以实现“用文字搜视频”、“用图片搜音频”——以前要搭 3-5 套系统才能干的事,现在一个 API 调用搞定。
值不值得关注:如果你在做 RAG、语义搜索、或者任何涉及多种媒体类型的 AI 应用——这是目前市面上唯一一个原生支持五种模态的商用 embedding 模型,没有替代品。如果你只做纯文本 embedding,OpenAI 便宜 10 倍,别用这个。
与我有关三问
与我有关吗?
目标用户:正在构建 RAG 系统、语义搜索、内容推荐、知识库的开发者和技术团队。
你是目标用户吗?
- 如果你在做纯文本的 RAG/搜索 → 关系不大,现有方案够用
- 如果你的数据里有图片+文本混合(比如电商、社交媒体)→ 直接相关
- 如果你处理视频/音频内容(播客、会议录音、视频平台)→ 这是游戏规则改变者
- 如果你是独立开发者想做多模态搜索产品 → 这把门槛从“需要 ML 团队”降到了“一个 API 调用”
什么场景会用到:
- 法律文档检索(文字+扫描件+录音证据一起搜)
- 电商多模态搜索(用文字描述搜商品图片)
- 企业知识库(会议录音、PPT、文档统一检索)
- 内容审核(跨模态发现相似内容)
对我有用吗?
| 维度 | 收益 | 代价 |
|---|---|---|
| 时间 | 省掉搭建多套 embedding 系统的时间(原来可能需要 1-2 周) | 学习 API 约 30 分钟,迁移旧数据需要全量重 embed |
| 金钱 | 一套系统替代 3-5 套,运维成本大幅下降 | $0.20/MTok 文本比 OpenAI 贵 10 倍;视频每分钟约 $1.13 |
| 精力 | 不用再对齐不同模态的向量空间 | 需要理解 MRL 维度选择、帧率优化等新概念 |
ROI 判断:如果你当前或计划中的项目涉及多模态数据,这个 API 的价值远超其价格溢价——因为替代方案是自己搭多套系统。如果只做文本,别碰它,用 OpenAI text-embedding-3-small ($0.02/MTok) 就行。
喜闻乐见吗?
爽点在哪:
- 跨模态搜索真的能用了:用一段文字描述,直接在视频库里找到对应的画面,不需要先转录
- 音频原生理解:不是“先语音转文字再 embed”,是真的理解声音本身
- 俄罗斯套娃维度(MRL):3072 维太大?截到 768 维,质量几乎不掉,存储省 4 倍
用户怎么说:
“除非你是在做多模态检索,否则考虑到价格,纯文本向量化不建议用这个模型。” — @neural_avb
Sparkonomy 报告延迟降低 70%,语义相似度评分翻倍 — VentureBeat
Mindlid 的 top-1 recall 提升了 20%,通过将文本对话记忆与音频 embedding 结合 — Google Blog
给独立开发者
技术栈
- 模型架构:基于 Gemini 基础模型,原生多模态。不是 CLIP 那种“图片编码器+文本编码器+对比学习对齐”,而是从底层就理解多种模态的 transformer
- 训练方法:俄罗斯套娃表示学习 (MRL),把最重要的语义信息集中在向量的前几个维度
- 输出维度:默认 3072 维,可截断到 1536/768/128
- 输入限制:文本 8192 tokens(前代 4 倍)、图片 6 张/请求、视频 120 秒、音频 80 秒、PDF 6 页
- API:
gemini-embedding-2-preview,通过 Gemini API 和 Vertex AI 访问 - SDK:
pip install google-generativeai
核心功能怎么实现的
说白了,传统多模态 embedding(比如 CLIP)是“各模态各有一个编码器,然后训练让它们的输出对齐”。Gemini Embedding 2 是直接用 Gemini 大模型本身来理解所有模态——这意味着它能处理“一张图+一段文字”的混合输入,理解它们之间的关系,而不只是分别编码再拼接。
代码示例很简单:
import google.generativeai as genai
genai.configure(api_key="YOUR_KEY")
result = genai.embed_content(
model="gemini-embedding-2-preview",
content="你的文本或多模态内容",
output_dimensionality=768 # 可选:截断维度
)
开源情况
- 模型本身:闭源,仅限 API 访问
- 代码实现:Apache 2.0
- 类似开源项目:BGE-M3(文本+多语言)、ModernBERT-Embed(文本)、pplx-embed-v1(文本)—— 但目前没有任何开源模型能做到五模态统一
- 自己做难度:极高。需要大规模多模态数据集 + Gemini 级别的基础模型。独立开发者几乎不可能复制
商业模式
- 变现:API 按 token 计费(Google Cloud 的标准打法)
- 文本:$0.20/MTok(标准),Batch API 半价
- 视频:约 $0.00079/帧,24fps 一分钟约 $1.13(很贵,必须降帧)
- 旧模型免费层:gemini-embedding-001 有 1500 请求/天的免费额度
- Gemini Embedding 2 免费层:当前公开预览阶段有免费配额(有速率限制)
巨头风险
这个产品本身就是巨头做的。对独立开发者来说,问题反过来了——你能在 Google 的 embedding 基础设施上面构建什么有价值的应用层? 可能的方向:
- 垂直领域的多模态搜索 SaaS(法律、医疗、教育)
- 多模态 RAG 的开发者工具/中间件
- 特定行业的数据标注和分类平台
给产品经理
痛点分析
解决什么问题:企业有大量非结构化数据(文档、图片、视频、录音),以前要搜索这些内容需要:
- 文本 → 一个 embedding 模型
- 图片 → 另一个模型(通常是 CLIP)
- 视频 → 先转文字,再用文本模型
- 音频 → 同上
每种模态一套管道,维护成本高,而且跨模态搜索几乎不可能做好。
痛点有多痛:对于纯文本场景(95%的当前 RAG 应用),不痛。但对于真正需要多模态检索的场景(法律发现、内容平台、企业知识库),这是长期以来的核心痛点。
用户画像
- 企业 AI 团队:在构建内部知识库、搜索系统的技术团队
- AI 开发者:用 LangChain/LlamaIndex 搭 RAG 的个人开发者
- 垂直 SaaS 公司:法律科技、内容平台、电商搜索
功能拆解
| 功能 | 类型 | 说明 |
|---|---|---|
| 五模态统一 embedding | 核心 | 文本+图片+视频+音频+PDF → 同一向量空间 |
| 跨模态检索 | 核心 | 用文字搜视频、用图片搜音频 |
| MRL 维度截断 | 核心 | 3072→768 灵活选择,平衡质量/存储 |
| 8192 token 上下文 | 增强 | 前代 4 倍,减少分块碎片化 |
| 100+ 语言 | 增强 | 多语言语义理解 |
| Task type 优化 | 锦上添花 | 指定任务类型优化向量 |
竞品差异
| 维度 | Gemini Embedding 2 | OpenAI text-embedding-3-large | Cohere embed-v4.0 | Voyage Multimodal 3.5 |
|---|---|---|---|---|
| 模态 | 文本+图片+视频+音频+PDF | 仅文本 | 文本+图片 | 文本+有限多模态 |
| 价格/MTok | $0.20 | $0.13 | 未公开 | $0.06 |
| 维度 | 3072 (可截断) | 3072 (可截断) | 1024 | 1024 |
| 上下文 | 8192 tokens | 8191 tokens | 4096 tokens | 32000 tokens |
| 核心优势 | 五模态原生 | 生态成熟 | 企业级 SLA | 长上下文 |
可借鉴的点
- MRL(俄罗斯套娃)维度设计:让用户自选精度/成本平衡,这个设计思路可以用在很多 ML 产品上
- Task type 参数:让同一个模型针对不同任务输出优化的向量,简单但有效
- 原生多模态而非后期对齐:产品设计上,“从底层就支持”比“后来加上去”用户体验好很多
给科技博主
创始人故事
这不是创业公司产品,是 Google DeepMind 团队出品。博客文章署名 Min Choi(产品经理)和 Tom Duerig(杰出工程师)。推广由 Logan Kilpatrick(前 OpenAI DevRel,现 Google DeepMind)负责,他的推文获得了 77 万次浏览。
有趣的背景:Logan Kilpatrick 从 OpenAI 跳到 Google 后,一直在推动 Gemini 的开发者生态。Embedding 2 是他推的最成功的产品之一——从 DevRel 角度看,embedding 模型通常不如生成模型吸引眼球,但这次多模态的卖点确实引爆了讨论。
争议点/讨论角度
- 定价争议:文本 embedding 比 OpenAI 贵 10 倍,社区有人说“除非你做多模态,否则别用” — 这是不是说明 Google 在故意用高价文本 embedding 补贴多模态研发?
- 锁定效应:embedding 空间不兼容,一旦选了 Gemini 就很难迁移 — 这是技术限制还是商业策略?
- 开源缺位:五模态统一 embedding 目前零开源替代 — 这个赛道会不会被 Google 垄断?
- 视频成本天坑:24fps 一分钟 $1.13,实际使用必须降帧 — Google 的定价策略是不是在劝退普通开发者、只服务企业客户?
热度数据
- PH 排名:4 票(极低,但 Google 产品不靠 PH 推广)
- Twitter 热度:Logan Kilpatrick 推文 77 万浏览、5300 赞、583 转发
- 媒体覆盖:VentureBeat、The Decoder、MarkTechPost、Neowin、Seeking Alpha 等一线科技媒体全部报道
- 股价反应:GOOGL 在发布后上涨 — TipRanks
内容建议
- 角度 1:“embedding 才是 AI 应用的地基” — 科普向,解释为什么这个不起眼的模型比 GPT-5 更影响实际 AI 应用
- 角度 2:“多模态搜索终于可用了” — 实战教程,用 Gemini Embedding 2 搭一个“用文字搜视频”的 demo
- 角度 3:“Google 的 AI 基础设施锁定战” — 分析向,从 embedding 不兼容看 Google 的开发者生态策略
给早期采用者
定价分析
| 层级 | 价格 | 包含功能 | 够用吗? |
|---|---|---|---|
| 免费(preview 期间) | $0 / 有速率限制 | 全部功能,限速 | 够测试和小项目 |
| 付费-文本 | $0.20/MTok | 文本 embedding | 纯文本不够划算,比 OpenAI 贵 10x |
| 付费-多模态 | $0.20/MTok + 帧费 | 全模态 | 多模态场景无替代品 |
| 旧模型免费 | $0 / 1500 RPD | 仅文本 | 够小项目 |
| Batch API | 50% 折扣 | 全部 | 批量处理强烈推荐 |
上手指南
- 上手时间:30 分钟
- 学习曲线:低(如果你用过任何 embedding API)
- 步骤:
- 去 Google AI Studio 获取 API key
pip install google-generativeai- 跑一个文本 embedding 测试
- 尝试多模态:传入图片+文本混合请求
- 接入你的向量数据库(Qdrant/Pinecone/ChromaDB 都有集成)
坑和吐槽
- 迁移成本巨大:旧模型的 embedding 和新模型完全不兼容,升级 = 全量重新 embed 你的所有数据
- 视频太贵:24fps 一分钟 $1.13,必须在客户端降到 1-2fps 再调用
- LangChain 多模态还没好:LangChain 集成目前只支持文本输入,多模态要直接调 SDK
- 维度变化坑人:从旧模型(768 维)升级,如果工具默认维度没改,会报一堆莫名其妙的错
安全和隐私
- 数据存储:API 调用数据走 Google Cloud 基础设施
- 免费层注意:免费层数据可能被 Google 用于产品改进
- 付费层:符合 Google Cloud 的企业级合规标准
- Vertex AI 版本:提供更严格的数据隔离和合规保证
替代方案
| 替代品 | 优势 | 劣势 |
|---|---|---|
| OpenAI text-embedding-3-small | 便宜 10 倍($0.02/MTok) | 仅文本 |
| OpenAI text-embedding-3-large | 更便宜($0.13/MTok),生态成熟 | 仅文本 |
| Voyage Multimodal 3.5 | 更便宜($0.06/MTok) | 多模态能力有限 |
| BGE-M3(开源) | 免费,可自托管 | 仅文本,需自运维 |
| NV-Embed-v2(自托管) | 极便宜(~$0.001/MTok),MTEB 72.3 | 仅文本,需 GPU |
给投资人
市场分析
- 向量数据库市场:2025 年 $26.5 亿 → 2030 年 $89.5 亿 (CAGR 27.5%) — MarketsAndMarkets
- 多模态记忆存储市场:2025 年 $38.4 亿 → 2030 年 $108.5 亿 (CAGR 23.2%) — EINPresswire
- Agentic AI + 向量数据库:2025 年 $4.6 亿 → 2030 年 $14.5 亿 (CAGR 26%) — Mordor Intelligence
竞争格局
| 层级 | 玩家 | 定位 |
|---|---|---|
| 头部 | Google (Gemini Embedding 2), OpenAI | 全栈 AI 平台,embedding 是基础设施层 |
| 腰部 | Cohere, Voyage AI, Mistral | 专注 embedding 质量和性价比 |
| 开源 | BGE-M3, NV-Embed-v2, pplx-embed | 文本 embedding 民主化 |
| 向量 DB | Pinecone, Weaviate, Qdrant, ChromaDB | 基础设施层,与 embedding 模型共生 |
Timing 分析
为什么是现在:
- 多模态 AI 应用爆发:2025-2026 年,纯文本 RAG 开始不够用,企业需要处理混合媒体数据
- 向量数据库成熟:Pinecone/Weaviate/Qdrant 等已成为标准基础设施,embedding 模型是瓶颈
- Gemini 基础模型就绪:Gemini 3 的多模态能力让构建原生多模态 embedding 成为可能
- 竞争窗口:OpenAI 还没有多模态 embedding,Google 抢先占位
团队背景
- Google DeepMind:全球最强 AI 研究实验室之一
- Min Choi:产品负责人
- Tom Duerig:杰出工程师,长期从事 Google 视觉/多模态研究
- Logan Kilpatrick:DevRel 负责人,前 OpenAI(带来了开发者社区运营经验)
融资情况
Google 自研产品,无外部融资。Google Cloud 2024 年收入超 $400 亿,AI 是核心增长驱动力。Gemini Embedding 2 是 Google Cloud AI 基础设施战略的关键组成部分。
结论
Gemini Embedding 2 是多模态 embedding 领域的 iPhone 时刻——不是因为它做了全新的事情,而是它把原来需要五套系统才能做的事变成了一个 API 调用。但如果你只做文本,它没有性价比优势。
| 用户类型 | 建议 |
|---|---|
| 开发者 | ✅ 如果项目涉及多模态数据,立刻试用。纯文本项目用 OpenAI 更划算 |
| 产品经理 | ✅ 关注多模态搜索/RAG 场景,这个能力以前做不到,现在一个 API 就行 |
| 博主 | ✅ “embedding 是 AI 应用的隐形地基”这个角度有话题度,适合深度长文 |
| 早期采用者 | ✅ preview 阶段有免费配额,值得跑个 demo 感受一下跨模态搜索 |
| 投资人 | ✅ 多模态 embedding 赛道处于早期,Google 先发优势明显,关注上层应用公司 |
资源链接
| 资源 | 链接 |
|---|---|
| 官方博客 | blog.google |
| API 文档 | ai.google.dev |
| 定价 | ai.google.dev/pricing |
| Vertex AI 文档 | cloud.google.com |
| 快速入门 Notebook | GitHub Cookbook |
| Logan Kilpatrick 推文 | X/Twitter |
| VentureBeat 报道 | venturebeat.com |
| 定价分析 (@neural_avb) | X/Twitter |
2026-03-11 | Trend-Tracker v7.3 | 数据来源: Google Blog, VentureBeat, MarkTechPost, X/Twitter, Google AI Docs