Human vs. LMMs: Exploring the Discrepancy in Emoji Interpretation and Usage in Digital Communication

2024年01月16日
  • 简介
    本文介绍了利用大型多模态模型(LMMs)模拟人类处理多模态信息,尤其是在社交媒体上的行为的广泛潜力和深远影响。表情符号作为数字通信中最独特的方面之一,在丰富和澄清情感和语调维度方面起着关键作用。然而,我们尚未了解这些先进模型(如GPT-4V)如何在在线交互的微妙语境中解释和使用表情符号,存在明显的差距。本研究旨在通过研究GPT-4V在复制类似于人类使用表情符号的行为方面的表现来弥合这一差距。研究结果揭示了人类和GPT-4V行为之间明显的差异,可能是由于人类解释的主观性和GPT-4V的英语中心训练的限制所致,这表明文化偏见和对非英语文化的不充分代表。
  • 图表
  • 解决问题
    本论文旨在研究大型多模态模型(LMMs)在处理表情符号时如何模拟人类行为,并探讨GPT-4V在解释和使用表情符号方面的差异。
  • 关键思路
    本文通过研究GPT-4V在使用表情符号方面的行为差异,揭示了英语中心训练的文化偏见和对非英语文化的不充分代表。
  • 其它亮点
    本文的实验设计包括比较人类和GPT-4V在使用表情符号方面的行为差异,并分析了这些差异的原因。本文指出了GPT-4V在使用表情符号方面的局限性,提出了改进的方案。本文的研究为跨文化和多语言自然语言处理提供了启示。
  • 相关研究
    在相关研究方面,最近的研究包括“Multimodal Language Analysis in the Wild: CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph”和“Multimodal Transformer for Unaligned Multimodal Language Sequences”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论