谷歌今日发布Gemini Embedding 2(公测版),是其首个基于Gemini架构的全模态嵌入模型,支持文本、图像、视频、音频及文档统一映射至同一嵌入空间,并覆盖100多种语言的语义意图理解。该模型显著简化多模态处理流程,提升RAG、语义搜索、情感分析与数据聚类等下游任务效果。文本支持最长8192词元;图像单次请求最多处理6张PNG/JPEG格式图片;视频支持MP4/MOV格式、最长120秒;音频亦被原生支持。通过灵活输出维度与强大跨模态理解能力,为开发者提供更高效、通用的嵌入解决方案。
本专栏通过快照技术转载,仅保留核心内容

内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢