返回探索

Gemini Embedding 2

AI Infrastructure Tools

Google 首款原生多模态向量化模型

💡 Gemini Embedding 2 是 Google 推出的首款原生多模态向量化(embedding)模型。它能将文本、图像、视频、音频和文档映射到统一的向量空间中,从而实现跨不同媒体类型的多模态检索和分类。该模型目前已开启公开预览。

"Gemini Embedding 2 是多模态向量化领域的 iPhone 时刻——它把原来需要五套复杂系统才能实现的功能,简化成了只需一次 API 调用。"

30秒快速判断
这App干嘛的:一个能将文本、图片、视频、音频、PDF 统一映射到同一向量空间的 API,轻松实现跨模态检索。
值不值得关注:如果你正在开发多模态 RAG 或语义搜索,这是目前市面上唯一原生支持五种模态的商用模型,具有无可替代的价值。
8/10

热度

9/10

实用

4

投票

产品画像
完整分析报告

Gemini Embedding 2:Google 终于把五种媒体塞进了同一个向量空间

2026-03-11 | ProductHunt | 官方博客


30秒快速判断

这东西干嘛的:一个 API,把文本、图片、视频、音频、PDF 全部变成同一个向量空间里的数字,让你可以实现“用文字搜视频”、“用图片搜音频”——以前要搭 3-5 套系统才能干的事,现在一个 API 调用搞定。

值不值得关注:如果你在做 RAG、语义搜索、或者任何涉及多种媒体类型的 AI 应用——这是目前市面上唯一一个原生支持五种模态的商用 embedding 模型,没有替代品。如果你只做纯文本 embedding,OpenAI 便宜 10 倍,别用这个。


与我有关三问

与我有关吗?

目标用户:正在构建 RAG 系统、语义搜索、内容推荐、知识库的开发者和技术团队。

你是目标用户吗?

  • 如果你在做纯文本的 RAG/搜索 → 关系不大,现有方案够用
  • 如果你的数据里有图片+文本混合(比如电商、社交媒体)→ 直接相关
  • 如果你处理视频/音频内容(播客、会议录音、视频平台)→ 这是游戏规则改变者
  • 如果你是独立开发者想做多模态搜索产品 → 这把门槛从“需要 ML 团队”降到了“一个 API 调用”

什么场景会用到

  • 法律文档检索(文字+扫描件+录音证据一起搜)
  • 电商多模态搜索(用文字描述搜商品图片)
  • 企业知识库(会议录音、PPT、文档统一检索)
  • 内容审核(跨模态发现相似内容)

对我有用吗?

维度收益代价
时间省掉搭建多套 embedding 系统的时间(原来可能需要 1-2 周)学习 API 约 30 分钟,迁移旧数据需要全量重 embed
金钱一套系统替代 3-5 套,运维成本大幅下降$0.20/MTok 文本比 OpenAI 贵 10 倍;视频每分钟约 $1.13
精力不用再对齐不同模态的向量空间需要理解 MRL 维度选择、帧率优化等新概念

ROI 判断:如果你当前或计划中的项目涉及多模态数据,这个 API 的价值远超其价格溢价——因为替代方案是自己搭多套系统。如果只做文本,别碰它,用 OpenAI text-embedding-3-small ($0.02/MTok) 就行。

喜闻乐见吗?

爽点在哪

  • 跨模态搜索真的能用了:用一段文字描述,直接在视频库里找到对应的画面,不需要先转录
  • 音频原生理解:不是“先语音转文字再 embed”,是真的理解声音本身
  • 俄罗斯套娃维度(MRL):3072 维太大?截到 768 维,质量几乎不掉,存储省 4 倍

用户怎么说

“除非你是在做多模态检索,否则考虑到价格,纯文本向量化不建议用这个模型。” — @neural_avb

Sparkonomy 报告延迟降低 70%,语义相似度评分翻倍 — VentureBeat

Mindlid 的 top-1 recall 提升了 20%,通过将文本对话记忆与音频 embedding 结合 — Google Blog


给独立开发者

技术栈

  • 模型架构:基于 Gemini 基础模型,原生多模态。不是 CLIP 那种“图片编码器+文本编码器+对比学习对齐”,而是从底层就理解多种模态的 transformer
  • 训练方法:俄罗斯套娃表示学习 (MRL),把最重要的语义信息集中在向量的前几个维度
  • 输出维度:默认 3072 维,可截断到 1536/768/128
  • 输入限制:文本 8192 tokens(前代 4 倍)、图片 6 张/请求、视频 120 秒、音频 80 秒、PDF 6 页
  • APIgemini-embedding-2-preview,通过 Gemini API 和 Vertex AI 访问
  • SDKpip install google-generativeai

核心功能怎么实现的

说白了,传统多模态 embedding(比如 CLIP)是“各模态各有一个编码器,然后训练让它们的输出对齐”。Gemini Embedding 2 是直接用 Gemini 大模型本身来理解所有模态——这意味着它能处理“一张图+一段文字”的混合输入,理解它们之间的关系,而不只是分别编码再拼接。

代码示例很简单:

import google.generativeai as genai
genai.configure(api_key="YOUR_KEY")

result = genai.embed_content(
    model="gemini-embedding-2-preview",
    content="你的文本或多模态内容",
    output_dimensionality=768  # 可选:截断维度
)

开源情况

  • 模型本身:闭源,仅限 API 访问
  • 代码实现:Apache 2.0
  • 类似开源项目:BGE-M3(文本+多语言)、ModernBERT-Embed(文本)、pplx-embed-v1(文本)—— 但目前没有任何开源模型能做到五模态统一
  • 自己做难度:极高。需要大规模多模态数据集 + Gemini 级别的基础模型。独立开发者几乎不可能复制

商业模式

  • 变现:API 按 token 计费(Google Cloud 的标准打法)
  • 文本:$0.20/MTok(标准),Batch API 半价
  • 视频:约 $0.00079/帧,24fps 一分钟约 $1.13(很贵,必须降帧)
  • 旧模型免费层:gemini-embedding-001 有 1500 请求/天的免费额度
  • Gemini Embedding 2 免费层:当前公开预览阶段有免费配额(有速率限制)

巨头风险

这个产品本身就是巨头做的。对独立开发者来说,问题反过来了——你能在 Google 的 embedding 基础设施上面构建什么有价值的应用层? 可能的方向:

  • 垂直领域的多模态搜索 SaaS(法律、医疗、教育)
  • 多模态 RAG 的开发者工具/中间件
  • 特定行业的数据标注和分类平台

给产品经理

痛点分析

解决什么问题:企业有大量非结构化数据(文档、图片、视频、录音),以前要搜索这些内容需要:

  1. 文本 → 一个 embedding 模型
  2. 图片 → 另一个模型(通常是 CLIP)
  3. 视频 → 先转文字,再用文本模型
  4. 音频 → 同上

每种模态一套管道,维护成本高,而且跨模态搜索几乎不可能做好。

痛点有多痛:对于纯文本场景(95%的当前 RAG 应用),不痛。但对于真正需要多模态检索的场景(法律发现、内容平台、企业知识库),这是长期以来的核心痛点。

用户画像

  • 企业 AI 团队:在构建内部知识库、搜索系统的技术团队
  • AI 开发者:用 LangChain/LlamaIndex 搭 RAG 的个人开发者
  • 垂直 SaaS 公司:法律科技、内容平台、电商搜索

功能拆解

功能类型说明
五模态统一 embedding核心文本+图片+视频+音频+PDF → 同一向量空间
跨模态检索核心用文字搜视频、用图片搜音频
MRL 维度截断核心3072→768 灵活选择,平衡质量/存储
8192 token 上下文增强前代 4 倍,减少分块碎片化
100+ 语言增强多语言语义理解
Task type 优化锦上添花指定任务类型优化向量

竞品差异

维度Gemini Embedding 2OpenAI text-embedding-3-largeCohere embed-v4.0Voyage Multimodal 3.5
模态文本+图片+视频+音频+PDF仅文本文本+图片文本+有限多模态
价格/MTok$0.20$0.13未公开$0.06
维度3072 (可截断)3072 (可截断)10241024
上下文8192 tokens8191 tokens4096 tokens32000 tokens
核心优势五模态原生生态成熟企业级 SLA长上下文

可借鉴的点

  1. MRL(俄罗斯套娃)维度设计:让用户自选精度/成本平衡,这个设计思路可以用在很多 ML 产品上
  2. Task type 参数:让同一个模型针对不同任务输出优化的向量,简单但有效
  3. 原生多模态而非后期对齐:产品设计上,“从底层就支持”比“后来加上去”用户体验好很多

给科技博主

创始人故事

这不是创业公司产品,是 Google DeepMind 团队出品。博客文章署名 Min Choi(产品经理)和 Tom Duerig(杰出工程师)。推广由 Logan Kilpatrick(前 OpenAI DevRel,现 Google DeepMind)负责,他的推文获得了 77 万次浏览。

有趣的背景:Logan Kilpatrick 从 OpenAI 跳到 Google 后,一直在推动 Gemini 的开发者生态。Embedding 2 是他推的最成功的产品之一——从 DevRel 角度看,embedding 模型通常不如生成模型吸引眼球,但这次多模态的卖点确实引爆了讨论。

争议点/讨论角度

  • 定价争议:文本 embedding 比 OpenAI 贵 10 倍,社区有人说“除非你做多模态,否则别用” — 这是不是说明 Google 在故意用高价文本 embedding 补贴多模态研发?
  • 锁定效应:embedding 空间不兼容,一旦选了 Gemini 就很难迁移 — 这是技术限制还是商业策略?
  • 开源缺位:五模态统一 embedding 目前零开源替代 — 这个赛道会不会被 Google 垄断?
  • 视频成本天坑:24fps 一分钟 $1.13,实际使用必须降帧 — Google 的定价策略是不是在劝退普通开发者、只服务企业客户?

热度数据

  • PH 排名:4 票(极低,但 Google 产品不靠 PH 推广)
  • Twitter 热度:Logan Kilpatrick 推文 77 万浏览、5300 赞、583 转发
  • 媒体覆盖:VentureBeat、The Decoder、MarkTechPost、Neowin、Seeking Alpha 等一线科技媒体全部报道
  • 股价反应:GOOGL 在发布后上涨 — TipRanks

内容建议

  • 角度 1:“embedding 才是 AI 应用的地基” — 科普向,解释为什么这个不起眼的模型比 GPT-5 更影响实际 AI 应用
  • 角度 2:“多模态搜索终于可用了” — 实战教程,用 Gemini Embedding 2 搭一个“用文字搜视频”的 demo
  • 角度 3:“Google 的 AI 基础设施锁定战” — 分析向,从 embedding 不兼容看 Google 的开发者生态策略

给早期采用者

定价分析

层级价格包含功能够用吗?
免费(preview 期间)$0 / 有速率限制全部功能,限速够测试和小项目
付费-文本$0.20/MTok文本 embedding纯文本不够划算,比 OpenAI 贵 10x
付费-多模态$0.20/MTok + 帧费全模态多模态场景无替代品
旧模型免费$0 / 1500 RPD仅文本够小项目
Batch API50% 折扣全部批量处理强烈推荐

上手指南

  • 上手时间:30 分钟
  • 学习曲线:低(如果你用过任何 embedding API)
  • 步骤
    1. Google AI Studio 获取 API key
    2. pip install google-generativeai
    3. 跑一个文本 embedding 测试
    4. 尝试多模态:传入图片+文本混合请求
    5. 接入你的向量数据库(Qdrant/Pinecone/ChromaDB 都有集成)

坑和吐槽

  1. 迁移成本巨大:旧模型的 embedding 和新模型完全不兼容,升级 = 全量重新 embed 你的所有数据
  2. 视频太贵:24fps 一分钟 $1.13,必须在客户端降到 1-2fps 再调用
  3. LangChain 多模态还没好:LangChain 集成目前只支持文本输入,多模态要直接调 SDK
  4. 维度变化坑人:从旧模型(768 维)升级,如果工具默认维度没改,会报一堆莫名其妙的错

安全和隐私

  • 数据存储:API 调用数据走 Google Cloud 基础设施
  • 免费层注意:免费层数据可能被 Google 用于产品改进
  • 付费层:符合 Google Cloud 的企业级合规标准
  • Vertex AI 版本:提供更严格的数据隔离和合规保证

替代方案

替代品优势劣势
OpenAI text-embedding-3-small便宜 10 倍($0.02/MTok)仅文本
OpenAI text-embedding-3-large更便宜($0.13/MTok),生态成熟仅文本
Voyage Multimodal 3.5更便宜($0.06/MTok)多模态能力有限
BGE-M3(开源)免费,可自托管仅文本,需自运维
NV-Embed-v2(自托管)极便宜(~$0.001/MTok),MTEB 72.3仅文本,需 GPU

给投资人

市场分析

  • 向量数据库市场:2025 年 $26.5 亿 → 2030 年 $89.5 亿 (CAGR 27.5%) — MarketsAndMarkets
  • 多模态记忆存储市场:2025 年 $38.4 亿 → 2030 年 $108.5 亿 (CAGR 23.2%) — EINPresswire
  • Agentic AI + 向量数据库:2025 年 $4.6 亿 → 2030 年 $14.5 亿 (CAGR 26%) — Mordor Intelligence

竞争格局

层级玩家定位
头部Google (Gemini Embedding 2), OpenAI全栈 AI 平台,embedding 是基础设施层
腰部Cohere, Voyage AI, Mistral专注 embedding 质量和性价比
开源BGE-M3, NV-Embed-v2, pplx-embed文本 embedding 民主化
向量 DBPinecone, Weaviate, Qdrant, ChromaDB基础设施层,与 embedding 模型共生

Timing 分析

为什么是现在

  1. 多模态 AI 应用爆发:2025-2026 年,纯文本 RAG 开始不够用,企业需要处理混合媒体数据
  2. 向量数据库成熟:Pinecone/Weaviate/Qdrant 等已成为标准基础设施,embedding 模型是瓶颈
  3. Gemini 基础模型就绪:Gemini 3 的多模态能力让构建原生多模态 embedding 成为可能
  4. 竞争窗口:OpenAI 还没有多模态 embedding,Google 抢先占位

团队背景

  • Google DeepMind:全球最强 AI 研究实验室之一
  • Min Choi:产品负责人
  • Tom Duerig:杰出工程师,长期从事 Google 视觉/多模态研究
  • Logan Kilpatrick:DevRel 负责人,前 OpenAI(带来了开发者社区运营经验)

融资情况

Google 自研产品,无外部融资。Google Cloud 2024 年收入超 $400 亿,AI 是核心增长驱动力。Gemini Embedding 2 是 Google Cloud AI 基础设施战略的关键组成部分。


结论

Gemini Embedding 2 是多模态 embedding 领域的 iPhone 时刻——不是因为它做了全新的事情,而是它把原来需要五套系统才能做的事变成了一个 API 调用。但如果你只做文本,它没有性价比优势。

用户类型建议
开发者✅ 如果项目涉及多模态数据,立刻试用。纯文本项目用 OpenAI 更划算
产品经理✅ 关注多模态搜索/RAG 场景,这个能力以前做不到,现在一个 API 就行
博主✅ “embedding 是 AI 应用的隐形地基”这个角度有话题度,适合深度长文
早期采用者✅ preview 阶段有免费配额,值得跑个 demo 感受一下跨模态搜索
投资人✅ 多模态 embedding 赛道处于早期,Google 先发优势明显,关注上层应用公司

资源链接

资源链接
官方博客blog.google
API 文档ai.google.dev
定价ai.google.dev/pricing
Vertex AI 文档cloud.google.com
快速入门 NotebookGitHub Cookbook
Logan Kilpatrick 推文X/Twitter
VentureBeat 报道venturebeat.com
定价分析 (@neural_avb)X/Twitter

2026-03-11 | Trend-Tracker v7.3 | 数据来源: Google Blog, VentureBeat, MarkTechPost, X/Twitter, Google AI Docs

一句话判断

Gemini Embedding 2 是多模态领域的里程碑式产品,将复杂的多模态集成简化为单一 API。多模态项目强烈推荐,纯文本项目建议绕行。

常见问题

关于 Gemini Embedding 2 的常见问题

一个能将文本、图片、视频、音频、PDF 统一映射到同一向量空间的 API,轻松实现跨模态检索。

Gemini Embedding 2 的主要功能包括:五种模态统一向量化、强大的跨模态检索能力(如文字搜视频)、MRL 维度截断(支持 3072 到 128 维自选)、支持 8192 token 的长上下文。

文本 $0.20/MTok;视频约 $1.13/分钟;预览期提供免费配额;旧模型保留 1500 RPD 的免费层级。

正在构建 RAG 系统、语义搜索、内容推荐或企业知识库的开发者与技术团队。

Gemini Embedding 2 的主要竞品包括:OpenAI text-embedding-3, Cohere embed-v4.0, Voyage Multimodal 3.5。

数据来源: ProductHunt2026年3月12日
最后更新: