Human vs. LMMs: Exploring the Discrepancy in Emoji Interpretation and Usage in Digital Communication

简介

本文介绍了利用大型多模态模型（LMMs）模拟人类处理多模态信息，尤其是在社交媒体上的行为的广泛潜力和深远影响。表情符号作为数字通信中最独特的方面之一，在丰富和澄清情感和语调维度方面起着关键作用。然而，我们尚未了解这些先进模型（如GPT-4V）如何在在线交互的微妙语境中解释和使用表情符号，存在明显的差距。本研究旨在通过研究GPT-4V在复制类似于人类使用表情符号的行为方面的表现来弥合这一差距。研究结果揭示了人类和GPT-4V行为之间明显的差异，可能是由于人类解释的主观性和GPT-4V的英语中心训练的限制所致，这表明文化偏见和对非英语文化的不充分代表。
图表
解决问题

本论文旨在研究大型多模态模型（LMMs）在处理表情符号时如何模拟人类行为，并探讨GPT-4V在解释和使用表情符号方面的差异。
关键思路

本文通过研究GPT-4V在使用表情符号方面的行为差异，揭示了英语中心训练的文化偏见和对非英语文化的不充分代表。
其它亮点

本文的实验设计包括比较人类和GPT-4V在使用表情符号方面的行为差异，并分析了这些差异的原因。本文指出了GPT-4V在使用表情符号方面的局限性，提出了改进的方案。本文的研究为跨文化和多语言自然语言处理提供了启示。
相关研究

在相关研究方面，最近的研究包括“Multimodal Language Analysis in the Wild: CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph”和“Multimodal Transformer for Unaligned Multimodal Language Sequences”。

Human vs. LMMs: Exploring the Discrepancy in Emoji Interpretation and Usage in Digital Communication

评论