Evaluating Dialect Robustness of Language Models via Conversation Understanding

向作者提问

NEW

简介

随着越来越多的LLM报告英语表现卓越，他们在不同英语方言（即方言鲁棒性）上的平等表现能力需要得到确认。具体而言，我们使用英语（美式英语或印度式英语）对话，人们在其中玩“禁忌词”猜词游戏。我们制定了两项评估任务：目标词预测（TWP）（即在对话中预测掩码目标词）和目标词选择（TWS）（即从一组候选词中选择在对话中最可能的掩码目标词）。我们扩展了现有的方言数据集MD3，引入了M-MD3，这是MD3的目标词掩码版本，包括USEng和IndEng子集。我们添加了两个子集：AITrans（从IndEng中删除方言信息）和AIGen（提示LLMs生成对话）。我们的评估使用两个闭源（GPT-4/3.5）和两个开源LLMs（Mistral和Gemma）的预训练和微调版本。在所有设置中，LLMs在TWP和TWS方面的美式英语表现显著优于印度式英语。虽然基于GPT的模型表现最佳，但相对较小的模型在短对话（<8轮）中的表现更加公平。我们在AIGen和AITrans（表现最佳和最差的子集）上的结果分别显示，LLMs可能会根据训练数据的组成学习自己的方言，而方言鲁棒性确实是一项具有挑战性的任务。我们的评估方法展示了一种使用预先存在的对话数据集来检查语言模型属性的新方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在验证LLMs在不同英语方言（美式英语和印度英语）中的表现是否公平，并提出了两个评估任务：目标词预测（TWP）和目标词选择（TWS）。此外，还介绍了M-MD3数据集，用于评估LLMs的方言鲁棒性。
关键思路

本文使用预先训练和微调的LLMs对M-MD3数据集进行评估，发现LLMs在美式英语中的表现显著优于印度英语，同时也表明方言鲁棒性是一个具有挑战性的任务。
其它亮点

本文提出了两个评估任务：目标词预测和目标词选择，并介绍了M-MD3数据集。实验结果表明LLMs在美式英语中的表现显著优于印度英语。GPT-4/3.5模型表现最佳，而较小的模型在短对话中表现更公平。此外，本文还发现LLMs可能会学习一种自己的方言，并提出了一种新的评估方法。
相关研究

最近的相关研究包括《DialoGPT: Large-Scale Generative Dialogue Modeling》和《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问