WayToClawEarn
中等影响Google AI Blog

Google Gemini API File Search 全面支持多模态:图像搜索+RAG 能力升级

Google 宣布 Gemini API 的 File Search 工具正式支持多模态数据索引与检索,开发者可在同一 pipeline 中处理图像和文本,同时新增自定义元数据过滤和逐页引用功能,是目前最完整的原生多模态 RAG 方案之一。

2026年5月10日 · 阅读约 4 分钟

核心结论

Google 在 2026 年 5 月为 Gemini API 的 File Search 工具带来三项重大更新:多模态支持、自定义元数据、逐页引用。这意味着开发者可以用同一套 API 处理图像和文本的检索增强生成(RAG),不再需要额外的 OCR 或图片描述管线。

关键要点

  • 事件发生时间:2026 年 5 月 10 日
  • 影响对象:AI 开发者、RAG 系统构建者、企业自动化团队
  • 核心变化:File Search 从纯文本扩展为多模态,原生支持图像理解与检索

背景与更新概况

File Search 是 Gemini API 中的一项托管工具,负责对上传文档进行索引和语义搜索。此前它只能处理文本文件(PDF、TXT、HTML 等)。本次更新将能力扩展到了图像领域。

三个更新维度:

维度变化对开发者的意义建议动作
多模态File Search 可索引图像并理解视觉内容无需外部 OCR/图像描述管线,简化为一次 API 调用将 File Search 纳入 Agent 的 RAG 工具列表
自定义元数据可为文档附加键值标签,查询时按 metadata 过滤搜索结果相关性大幅提升,减少无关文档干扰在文件上传阶段规划 metadata schema
逐页引用回答结果直接指向 PDF/文档的原页面编号用户可验证信息来源,提升 AI 输出的可信度在面向客户的 AI 工具中优先启用此功能

多模态 RAG 的能力边界

过去,开发者要构建一个能搜索图像内容的 RAG 系统,通常需要两条独立的 pipeline:

  1. 图像描述管线:用多模态模型(如 GPT-4o、Gemini 2.5)对每张图生成文本描述,存入向量数据库
  2. 文本查询管线:用户查询→向量检索→匹配文本描述→返回相关图像

这种架构的问题很明显:描述丢失了大量视觉细节。一张"夕阳下的海边"的图片可能被检索到,但"人物的表情"或"画面左上角的 logo"几乎无法通过描述还原。

Gemini API 的 File Search 多模态更新将这两步合为一步——模型直接理解图像的原始像素,按语义搜索。这在以下场景中特别有价值:

  • 创意机构在数千张作品中按"情绪氛围"或"视觉风格"搜索
  • 电商平台的商品图库按描述性短语检索
  • 企业文档库中的截图、图表、流程图直接参与 RAG 检索

Gemini API RAG 工作流示意

自定义元数据:提升检索精度的关键

File Search 新增的 metadata 机制允许开发者在文件上传时附加键值标签:

json
{
  "files": [
    {
      "url": "gs://bucket/report-q1.pdf",
      "metadata": {
        "quarter": "Q1",
        "region": "APAC",
        "department": "engineering"
      }
    }
  ]
}

查询时按 metadata 过滤,将搜索范围限定到特定数据切片。这在生产级 RAG 应用中意义重大——当知识库达到数万份文档时,语义检索本身会产生大量模糊匹配,metadata 筛选提供了确定性的范围限制。

逐页引用:可信 AI 不可或缺的能力

当 AI Agent 从一份 200 页的 PDF 中提取答案时,用户需要验证出处。File Search 的新引用功能将每条回答直接映射到源文档的页面编号。

这与目前主流 RAG 框架(如 LangChain/LlamaIndex)的引用方案一致,但多了原生集成带来的好处——不需要开发者手动实现引用提取与匹配逻辑。

延伸资料

工具词条

正文中自然出现的工具:GeminiGemini APIOpenAIGPT-4oLangChainLlamaIndex

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。