Analyzing Social Biases in Japanese Large Language Models

简介

随着大型语言模型（LLM）的发展，LLM中的社会偏见已成为一个关键问题。虽然已经提供了各种语言的社会偏见基准，但日语LLM展示社会偏见的程度尚未得到充分调查。在本研究中，我们基于英文偏见基准BBQ，构建了日语问答偏见基准数据集JBBQ，并分析了日语LLM中的社会偏见。结果表明，虽然目前的日语LLM通过指令调整提高了在JBBQ上的准确性，但它们的偏见分数变得更大。此外，向它们的提示添加有关社会偏见的警告可以减少某些模型中偏见的影响。
图表
解决问题

本论文旨在探讨日语大型语言模型（LLMs）中的社会偏见问题，构建了日语偏见基准数据集，并分析了当前日语LLMs中的社会偏见情况。
关键思路

通过构建日语偏见基准数据集，分析了当前日语LLMs中的社会偏见情况，并尝试通过添加警告信息来减少偏见影响。
其它亮点

论文构建了日语偏见基准数据集（JBBQ），并发现当前日语LLMs在提高准确率的同时，偏见得分也变大。在实验中尝试通过添加警告信息来减少偏见影响，取得了一定效果。
相关研究

目前已经有一些相关研究在不同语言的LLMs中探讨社会偏见问题，例如英语的BBQ数据集。