Gemini Embedding 2: Our first natively multimodal embedding model

谷歌今日发布Gemini Embedding 2（公测版），是其首个基于Gemini架构的全模态嵌入模型，支持文本、图像、视频、音频及文档统一映射至同一嵌入空间，并覆盖100多种语言的语义意图理解。该模型显著简化多模态处理流程，提升RAG、语义搜索、情感分析与数据聚类等下游任务效果。文本支持最长8192词元；图像单次请求最多处理6张PNG/JPEG格式图片；视频支持MP4/MOV格式、最长120秒；音频亦被原生支持。通过灵活输出维度与强大跨模态理解能力，为开发者提供更高效、通用的嵌入解决方案。

本专栏通过快照技术转载，仅保留核心内容