- 简介最近大型多模态语言模型的进展已经展示了在各种任务上的惊人的熟练度。然而,这些模型在通过并列来理解人类幽默的微妙差别方面仍然存在困难,特别是当它涉及到支撑许多笑话和幽默线索的非线性叙事时。本文通过关注具有矛盾叙事的漫画来研究这一挑战,其中每个漫画由两个面板组成,创造了一个幽默的矛盾。我们引入了YesBut基准测试,它包括各种难度的任务,旨在评估人工智能识别和解释这些漫画的能力,从字面内容理解到深入的叙事推理。通过对最近的商业或开源大型(视觉)语言模型的广泛实验和分析,我们评估了它们理解这些漫画中固有的叙事幽默的复杂相互作用的能力。我们的结果表明,即使是最先进的模型在这项任务上仍然落后于人类表现。我们的发现提供了关于目前限制和提高人工智能理解人类创造性表达能力的潜力的见解。
- 图表
- 解决问题探究大型多模态语言模型在理解人类幽默中的局限性,特别是在涉及非线性叙述的矛盾故事中的幽默。
- 关键思路引入YesBut基准测试,评估人工智能在识别和解释两个相互矛盾的漫画面板中的幽默的能力。通过对最新的商业或开源大型(视觉)语言模型的广泛实验和分析,评估它们理解这些漫画中固有的叙述幽默的能力。
- 其它亮点实验结果表明,即使是最先进的模型在这项任务上仍然落后于人类表现。研究结果为理解人类创造性表达的人工智能的当前限制和潜在改进提供了见解。
- 最近的相关研究包括:1.《迈向对话机器人的理解和生成幽默的模型》2.《基于情感的幽默生成:一个实验性研究》3.《人工智能和幽默:为什么是有趣的?》
沙发等你来抢
去评论
评论
沙发等你来抢