微软相信多模态方法为人类水平的人工智能铺平了道路。

3月2日,微软的研究人员推出了 Kosmos-1,这是一种多模态模型,据报道可以分析图像的内容、解决视觉难题、执行视觉文本识别、通过视觉智商测试以及理解自然语言指令。 研究人员认为,多模态 AI(集成了文本、音频、图像和视频等不同输入模式)是构建通用人工智能 (AGI) 的关键步骤,它可以在人类水平上执行一般任务。

研究人员在他们的学术论文中写道:“作为智能的基本组成部分,多模态感知是实现人工智能的必要条件,在知识获取和与现实世界打交道方面,语言不是你所需要的全部:对齐感知与语言模型。”

Kosmos-1 论文中的视觉示例展示了模型分析图像并回答有关图像的问题、从图像中读取文本、为图像编写标题以及以 22-26% 的准确率进行视觉智商测试。

虽然媒体热议有关大型语言模型 (LLM) 的新闻,但一些 AI 专家指出多模态 AI 是通向通用人工智能的潜在途径,这是一种表面上能够在任何智力任务(和任何智力工作)中取代人类的假设技术 . AGI 是微软在 AI 领域的重要业务合作伙伴 OpenAI 的既定目标。

在这种情况下,Kosmos-1 似乎是一个没有 OpenAI 参与的纯微软项目。 研究人员称他们的创建为“多模态大型语言模型”(MLLM),因为它的根源在于自然语言处理,如纯文本 LLM,例如 ChatGPT。 它表明:要让 Kosmos-1 接受图像输入,研究人员必须首先将图像翻译成 LLM 可以理解的一系列特殊标记(基本上是文本)。 Kosmos-1 论文更详细地描述了这一点:

对于输入格式,我们将输入展平为用特殊标记装饰的序列。 具体来说,我们使用 <g> 和 </g> 来表示序列的开始和结束。 特殊标记 <image> 和 </image> 表示编码图像嵌入的开始和结束。 例如,“<g>文档</g>”是文本输入,“<s>段落<image>图像嵌入</image>段落</s>”是图像文本交错输入。

...嵌入模块用于将文本标记和其他输入模式编码为向量。 然后嵌入被送入解码器。 对于输入标记,我们使用查找表将它们映射到嵌入中。 对于连续信号(如图像、音频)的模态,也可以将输入表示为离散代码,然后将其视为“外语”。

微软使用网络数据训练 Kosmos-1,包括 The Pile(800GB 英文文本资源)和 Common Crawl 的摘录。 训练结束后,他们在语言理解、语言生成、光学字符识别免文本分类、图像字幕、视觉问答、网页问答和零样本图像分类等多项测试中评估了 Kosmos-1 的能力。 据微软称,在其中许多测试中,Kosmos-1 的表现优于当前最先进的模型。

An example of the Raven IQ test that Kosmos-1 was tasked with solving.

特别令人感兴趣的是 Kosmos-1 在 Raven 的渐进推理中的表现,它通过呈现一系列形状并要求测试者完成序列来测量视觉智商。 为了测试 Kosmos-1,研究人员提供了一份完整的测试,一次一个,完成每个选项并询问答案是否正确。 Kosmos-1 只能在 22% 的时间内正确回答 Raven 测试中的问题(微调后为 26%)。 这绝不是灌篮高手,方法上的错误可能会影响结果,但 Kosmos-1 在 Raven IQ 测试中击败了随机概率 (17%)。

尽管如此,虽然 Kosmos-1 代表了多模式领域的早期步骤(其他人也在追求这种方法),但很容易想象未来的优化可能会带来更重要的结果,让人工智能模型能够感知任何形式的媒体并对其采取行动 ,这将大大提高人工助手的能力。 未来,研究人员表示他们希望扩大 Kosmos-1 的模型大小并集成语音功能。

微软表示,它计划向开发人员提供 Kosmos-1,尽管该论文引用的 GitHub 页面在本文发表时没有明显的 Kosmos 特定代码。

内容中包含的图片若涉及版权问题,请及时与我们联系删除