Gemini Embedding 2 是什么？

一个能将文本、图片、视频、音频、PDF 统一映射到同一向量空间的 API，轻松实现跨模态检索。

Gemini Embedding 2 有哪些主要功能？

Gemini Embedding 2 的主要功能包括：五种模态统一向量化、强大的跨模态检索能力（如文字搜视频）、MRL 维度截断（支持 3072 到 128 维自选）、支持 8192 token 的长上下文。

Gemini Embedding 2 如何收费？

文本 $0.20/MTok；视频约 $1.13/分钟；预览期提供免费配额；旧模型保留 1500 RPD 的免费层级。

Gemini Embedding 2 适合谁使用？

正在构建 RAG 系统、语义搜索、内容推荐或企业知识库的开发者与技术团队。

Gemini Embedding 2 有哪些竞品？

Gemini Embedding 2 的主要竞品包括：OpenAI text-embedding-3, Cohere embed-v4.0, Voyage Multimodal 3.5。

Gemini Embedding 2：Google 终于把五种媒体塞进了同一个向量空间

2026-03-11 | ProductHunt | 官方博客

30秒快速判断

这东西干嘛的：一个 API，把文本、图片、视频、音频、PDF 全部变成同一个向量空间里的数字，让你可以实现“用文字搜视频”、“用图片搜音频”——以前要搭 3-5 套系统才能干的事，现在一个 API 调用搞定。

值不值得关注：如果你在做 RAG、语义搜索、或者任何涉及多种媒体类型的 AI 应用——这是目前市面上唯一一个原生支持五种模态的商用 embedding 模型，没有替代品。如果你只做纯文本 embedding，OpenAI 便宜 10 倍，别用这个。

与我有关三问

与我有关吗？

目标用户：正在构建 RAG 系统、语义搜索、内容推荐、知识库的开发者和技术团队。

你是目标用户吗？

如果你在做纯文本的 RAG/搜索 → 关系不大，现有方案够用
如果你的数据里有图片+文本混合（比如电商、社交媒体）→ 直接相关
如果你处理视频/音频内容（播客、会议录音、视频平台）→ 这是游戏规则改变者
如果你是独立开发者想做多模态搜索产品 → 这把门槛从“需要 ML 团队”降到了“一个 API 调用”

什么场景会用到：

法律文档检索（文字+扫描件+录音证据一起搜）
电商多模态搜索（用文字描述搜商品图片）
企业知识库（会议录音、PPT、文档统一检索）
内容审核（跨模态发现相似内容）

对我有用吗？

维度	收益	代价
时间	省掉搭建多套 embedding 系统的时间（原来可能需要 1-2 周）	学习 API 约 30 分钟，迁移旧数据需要全量重 embed
金钱	一套系统替代 3-5 套，运维成本大幅下降	$0.20/MTok 文本比 OpenAI 贵 10 倍；视频每分钟约 $1.13
精力	不用再对齐不同模态的向量空间	需要理解 MRL 维度选择、帧率优化等新概念

ROI 判断：如果你当前或计划中的项目涉及多模态数据，这个 API 的价值远超其价格溢价——因为替代方案是自己搭多套系统。如果只做文本，别碰它，用 OpenAI text-embedding-3-small ($0.02/MTok) 就行。

喜闻乐见吗？

爽点在哪：

跨模态搜索真的能用了：用一段文字描述，直接在视频库里找到对应的画面，不需要先转录
音频原生理解：不是“先语音转文字再 embed”，是真的理解声音本身
俄罗斯套娃维度（MRL）：3072 维太大？截到 768 维，质量几乎不掉，存储省 4 倍

用户怎么说：

“除非你是在做多模态检索，否则考虑到价格，纯文本向量化不建议用这个模型。” — @neural_avb

Sparkonomy 报告延迟降低 70%，语义相似度评分翻倍 — VentureBeat

Mindlid 的 top-1 recall 提升了 20%，通过将文本对话记忆与音频 embedding 结合 — Google Blog

给独立开发者

技术栈

模型架构：基于 Gemini 基础模型，原生多模态。不是 CLIP 那种“图片编码器+文本编码器+对比学习对齐”，而是从底层就理解多种模态的 transformer
训练方法：俄罗斯套娃表示学习 (MRL)，把最重要的语义信息集中在向量的前几个维度
输出维度：默认 3072 维，可截断到 1536/768/128
输入限制：文本 8192 tokens（前代 4 倍）、图片 6 张/请求、视频 120 秒、音频 80 秒、PDF 6 页
API：gemini-embedding-2-preview，通过 Gemini API 和 Vertex AI 访问
SDK：pip install google-generativeai

核心功能怎么实现的

说白了，传统多模态 embedding（比如 CLIP）是“各模态各有一个编码器，然后训练让它们的输出对齐”。Gemini Embedding 2 是直接用 Gemini 大模型本身来理解所有模态——这意味着它能处理“一张图+一段文字”的混合输入，理解它们之间的关系，而不只是分别编码再拼接。

代码示例很简单：

import google.generativeai as genai
genai.configure(api_key="YOUR_KEY")

result = genai.embed_content(
    model="gemini-embedding-2-preview",
    content="你的文本或多模态内容",
    output_dimensionality=768  # 可选：截断维度
)

开源情况

模型本身：闭源，仅限 API 访问
代码实现：Apache 2.0
类似开源项目：BGE-M3（文本+多语言）、ModernBERT-Embed（文本）、pplx-embed-v1（文本）—— 但目前没有任何开源模型能做到五模态统一
自己做难度：极高。需要大规模多模态数据集 + Gemini 级别的基础模型。独立开发者几乎不可能复制

商业模式

变现：API 按 token 计费（Google Cloud 的标准打法）
文本：$0.20/MTok（标准），Batch API 半价
视频：约 $0.00079/帧，24fps 一分钟约 $1.13（很贵，必须降帧）
旧模型免费层：gemini-embedding-001 有 1500 请求/天的免费额度
Gemini Embedding 2 免费层：当前公开预览阶段有免费配额（有速率限制）

巨头风险

这个产品本身就是巨头做的。对独立开发者来说，问题反过来了——你能在 Google 的 embedding 基础设施上面构建什么有价值的应用层？ 可能的方向：

垂直领域的多模态搜索 SaaS（法律、医疗、教育）
多模态 RAG 的开发者工具/中间件
特定行业的数据标注和分类平台

给产品经理

痛点分析

解决什么问题：企业有大量非结构化数据（文档、图片、视频、录音），以前要搜索这些内容需要：

文本 → 一个 embedding 模型
图片 → 另一个模型（通常是 CLIP）
视频 → 先转文字，再用文本模型
音频 → 同上

每种模态一套管道，维护成本高，而且跨模态搜索几乎不可能做好。

痛点有多痛：对于纯文本场景（95%的当前 RAG 应用），不痛。但对于真正需要多模态检索的场景（法律发现、内容平台、企业知识库），这是长期以来的核心痛点。

用户画像

企业 AI 团队：在构建内部知识库、搜索系统的技术团队
AI 开发者：用 LangChain/LlamaIndex 搭 RAG 的个人开发者
垂直 SaaS 公司：法律科技、内容平台、电商搜索

功能拆解

功能	类型	说明
五模态统一 embedding	核心	文本+图片+视频+音频+PDF → 同一向量空间
跨模态检索	核心	用文字搜视频、用图片搜音频
MRL 维度截断	核心	3072→768 灵活选择，平衡质量/存储
8192 token 上下文	增强	前代 4 倍，减少分块碎片化
100+ 语言	增强	多语言语义理解
Task type 优化	锦上添花	指定任务类型优化向量

竞品差异

维度	Gemini Embedding 2	OpenAI text-embedding-3-large	Cohere embed-v4.0	Voyage Multimodal 3.5
模态	文本+图片+视频+音频+PDF	仅文本	文本+图片	文本+有限多模态
价格/MTok	$0.20	$0.13	未公开	$0.06
维度	3072 (可截断)	3072 (可截断)	1024	1024
上下文	8192 tokens	8191 tokens	4096 tokens	32000 tokens
核心优势	五模态原生	生态成熟	企业级 SLA	长上下文

可借鉴的点

MRL（俄罗斯套娃）维度设计：让用户自选精度/成本平衡，这个设计思路可以用在很多 ML 产品上
Task type 参数：让同一个模型针对不同任务输出优化的向量，简单但有效
原生多模态而非后期对齐：产品设计上，“从底层就支持”比“后来加上去”用户体验好很多

给科技博主

创始人故事

这不是创业公司产品，是 Google DeepMind 团队出品。博客文章署名 Min Choi（产品经理）和 Tom Duerig（杰出工程师）。推广由 Logan Kilpatrick（前 OpenAI DevRel，现 Google DeepMind）负责，他的推文获得了 77 万次浏览。

有趣的背景：Logan Kilpatrick 从 OpenAI 跳到 Google 后，一直在推动 Gemini 的开发者生态。Embedding 2 是他推的最成功的产品之一——从 DevRel 角度看，embedding 模型通常不如生成模型吸引眼球，但这次多模态的卖点确实引爆了讨论。

争议点/讨论角度

定价争议：文本 embedding 比 OpenAI 贵 10 倍，社区有人说“除非你做多模态，否则别用” — 这是不是说明 Google 在故意用高价文本 embedding 补贴多模态研发？
锁定效应：embedding 空间不兼容，一旦选了 Gemini 就很难迁移 — 这是技术限制还是商业策略？
开源缺位：五模态统一 embedding 目前零开源替代 — 这个赛道会不会被 Google 垄断？
视频成本天坑：24fps 一分钟 $1.13，实际使用必须降帧 — Google 的定价策略是不是在劝退普通开发者、只服务企业客户？

热度数据

PH 排名：4 票（极低，但 Google 产品不靠 PH 推广）
Twitter 热度：Logan Kilpatrick 推文 77 万浏览、5300 赞、583 转发
媒体覆盖：VentureBeat、The Decoder、MarkTechPost、Neowin、Seeking Alpha 等一线科技媒体全部报道
股价反应：GOOGL 在发布后上涨 — TipRanks

内容建议

角度 1：“embedding 才是 AI 应用的地基” — 科普向，解释为什么这个不起眼的模型比 GPT-5 更影响实际 AI 应用
角度 2：“多模态搜索终于可用了” — 实战教程，用 Gemini Embedding 2 搭一个“用文字搜视频”的 demo
角度 3：“Google 的 AI 基础设施锁定战” — 分析向，从 embedding 不兼容看 Google 的开发者生态策略

给早期采用者

定价分析

层级	价格	包含功能	够用吗？
免费（preview 期间）	$0 / 有速率限制	全部功能，限速	够测试和小项目
付费-文本	$0.20/MTok	文本 embedding	纯文本不够划算，比 OpenAI 贵 10x
付费-多模态	$0.20/MTok + 帧费	全模态	多模态场景无替代品
旧模型免费	$0 / 1500 RPD	仅文本	够小项目
Batch API	50% 折扣	全部	批量处理强烈推荐

上手指南

上手时间：30 分钟
学习曲线：低（如果你用过任何 embedding API）
步骤：
1. 去 Google AI Studio 获取 API key
2. pip install google-generativeai
3. 跑一个文本 embedding 测试
4. 尝试多模态：传入图片+文本混合请求
5. 接入你的向量数据库（Qdrant/Pinecone/ChromaDB 都有集成）

坑和吐槽

迁移成本巨大：旧模型的 embedding 和新模型完全不兼容，升级 = 全量重新 embed 你的所有数据
视频太贵：24fps 一分钟 $1.13，必须在客户端降到 1-2fps 再调用
LangChain 多模态还没好：LangChain 集成目前只支持文本输入，多模态要直接调 SDK
维度变化坑人：从旧模型（768 维）升级，如果工具默认维度没改，会报一堆莫名其妙的错

安全和隐私

数据存储：API 调用数据走 Google Cloud 基础设施
免费层注意：免费层数据可能被 Google 用于产品改进
付费层：符合 Google Cloud 的企业级合规标准
Vertex AI 版本：提供更严格的数据隔离和合规保证

替代方案

替代品	优势	劣势
OpenAI text-embedding-3-small	便宜 10 倍（$0.02/MTok）	仅文本
OpenAI text-embedding-3-large	更便宜（$0.13/MTok），生态成熟	仅文本
Voyage Multimodal 3.5	更便宜（$0.06/MTok）	多模态能力有限
BGE-M3（开源）	免费，可自托管	仅文本，需自运维
NV-Embed-v2（自托管）	极便宜（~$0.001/MTok），MTEB 72.3	仅文本，需 GPU

给投资人

市场分析

向量数据库市场：2025 年 $26.5 亿 → 2030 年 $89.5 亿 (CAGR 27.5%) — MarketsAndMarkets
多模态记忆存储市场：2025 年 $38.4 亿 → 2030 年 $108.5 亿 (CAGR 23.2%) — EINPresswire
Agentic AI + 向量数据库：2025 年 $4.6 亿 → 2030 年 $14.5 亿 (CAGR 26%) — Mordor Intelligence

竞争格局

层级	玩家	定位
头部	Google (Gemini Embedding 2), OpenAI	全栈 AI 平台，embedding 是基础设施层
腰部	Cohere, Voyage AI, Mistral	专注 embedding 质量和性价比
开源	BGE-M3, NV-Embed-v2, pplx-embed	文本 embedding 民主化
向量 DB	Pinecone, Weaviate, Qdrant, ChromaDB	基础设施层，与 embedding 模型共生

Timing 分析

为什么是现在：

多模态 AI 应用爆发：2025-2026 年，纯文本 RAG 开始不够用，企业需要处理混合媒体数据
向量数据库成熟：Pinecone/Weaviate/Qdrant 等已成为标准基础设施，embedding 模型是瓶颈
Gemini 基础模型就绪：Gemini 3 的多模态能力让构建原生多模态 embedding 成为可能
竞争窗口：OpenAI 还没有多模态 embedding，Google 抢先占位

团队背景

Google DeepMind：全球最强 AI 研究实验室之一
Min Choi：产品负责人
Tom Duerig：杰出工程师，长期从事 Google 视觉/多模态研究
Logan Kilpatrick：DevRel 负责人，前 OpenAI（带来了开发者社区运营经验）

融资情况

Google 自研产品，无外部融资。Google Cloud 2024 年收入超 $400 亿，AI 是核心增长驱动力。Gemini Embedding 2 是 Google Cloud AI 基础设施战略的关键组成部分。

结论

Gemini Embedding 2 是多模态 embedding 领域的 iPhone 时刻——不是因为它做了全新的事情，而是它把原来需要五套系统才能做的事变成了一个 API 调用。但如果你只做文本，它没有性价比优势。

用户类型	建议
开发者	✅ 如果项目涉及多模态数据，立刻试用。纯文本项目用 OpenAI 更划算
产品经理	✅ 关注多模态搜索/RAG 场景，这个能力以前做不到，现在一个 API 就行
博主	✅ “embedding 是 AI 应用的隐形地基”这个角度有话题度，适合深度长文
早期采用者	✅ preview 阶段有免费配额，值得跑个 demo 感受一下跨模态搜索
投资人	✅ 多模态 embedding 赛道处于早期，Google 先发优势明显，关注上层应用公司

资源链接

资源	链接
官方博客	blog.google
API 文档	ai.google.dev
定价	ai.google.dev/pricing
Vertex AI 文档	cloud.google.com
快速入门 Notebook	GitHub Cookbook
Logan Kilpatrick 推文	X/Twitter
VentureBeat 报道	venturebeat.com
定价分析 (@neural_avb)	X/Twitter

2026-03-11 | Trend-Tracker v7.3 | 数据来源: Google Blog, VentureBeat, MarkTechPost, X/Twitter, Google AI Docs

Gemini Embedding 2