- 简介纯粹基于文本训练的大型语言模型(LLM)表面上缺乏直接的感知体验,但其内部表征实际上隐式地受到语言中编码的多模态规律的影响。我们检验了这样一种假设:明确的感官提示可以揭示出这种潜在结构,使仅基于文本的大型语言模型在表征上更接近专业的视觉和音频编码器。当感官提示让模型“看”或“听”时,它会引导模型在进行下一个词预测时,仿佛这些预测是基于某种实际并未提供的潜在视觉或听觉证据所做出的。我们的研究结果表明,通过轻量级的提示工程,能够可靠地激活纯文本训练的大型语言模型中与特定模态相匹配的表征。
-
- 图表
- 解决问题论文探讨的问题是:尽管大型语言模型(LLMs)仅通过文本训练,缺乏直接的感知经验,但它们是否隐含地编码了多模态规律?进一步验证一个假设——通过显式的感官提示(如‘看’或‘听’),能否激活这些潜在的、与视觉或听觉相关的表征,使纯文本LLM在表示上更接近专业的视觉和音频编码器。这个问题在一定程度上是新的,因为它挑战了‘文本模型无法具备感知能力’的传统观点,并探索如何通过简单提示挖掘其潜在多模态结构。
- 关键思路关键思路是使用轻量级的感官提示(例如让模型‘see’或‘hear’)来引导文本LLM在进行下一个词预测时,模拟出如同接收到真实视觉或听觉输入后的反应。这种方法不修改模型权重,也不需要多模态训练数据,而是通过提示工程激发模型内部已隐式学习到的跨模态关联。相比当前主流依赖于大规模图文对齐或多模态联合训练的方法,该思路新颖地展示了纯文本模型中潜藏的感知类表征可通过提示被系统性激活。
- 其它亮点实验设计巧妙,通过对比不同提示条件下LLM的内部表示与专业视觉(如CLIP)和音频编码器(如PaPi)的表示之间的相似性,量化了‘感官提示’带来的对齐提升。使用了多个标准数据集(如ImageNet、AudioSet)对应的文本描述进行测试,并采用表示空间对齐度(如CKA、Procrustes分析)作为评估指标。虽然未提及开源代码,但方法简单高效,提示工程成本低,具有很强的可复现性。值得深入研究的方向包括:如何构建最优感官提示、不同LLM中的多模态潜力差异、以及将此发现用于零样本跨模态生成任务。
- 近期相关研究包括:'PaLM-E: An Embodied Multimodal Language Model'(2023),探索具身多模态模型;'Flamingo: Tackling the Data Scarcity Challenge in Vision-Language Models'(2022),利用少量图文数据实现强大推理;'CoCa: Unified Vision-Language Pre-Training with Region-to-Token Contrastive Learning'(2022),统一图像-语言预训练框架;以及'Can Language Models Learn from Explanations?'(2022),研究解释性文本对模型行为的影响。本工作与这些研究形成互补,强调即使没有显式多模态训练,语言模型也可能蕴含感知结构。


提问交流