Open Source Conversational LLMs do not know most Spanish words

简介

越来越多人对大型语言模型（LLMs）产生了浓厚的兴趣，特别是对于用户可以进行交互的对话模型，这导致了大量开源聊天LLMs的开发。这些模型在广泛的基准测试中进行评估，以评估它们在几乎任何可能的主题上回答问题或解决问题的能力，或者测试它们理解或解释文本的能力。然而，这些模型对于它们掌握的语言知识的评估却受到了较少的关注，例如它们能够识别和使用不同语言中的单词。在本文中，我们通过在参考词典中测试单词样本来评估开源聊天LLMs对西班牙语单词的掌握程度。结果显示，开源聊天LLMs对重要部分单词产生了错误的含义，并且不能正确使用大多数单词来编写带有上下文的句子。这些结果展示了西班牙语在开源LLM竞赛中的落后，并强调了在对话LLMs中推动语言公平性的必要性，以确保它们在不同语言间提供类似的性能。

图表

解决问题

评估开源聊天LLM对西班牙语词汇的知识水平，揭示西班牙语在开源LLM中的不足，呼吁推动语言公平。

关键思路

使用参考词典测试西班牙语单词的准确性和上下文使用能力，发现开源聊天LLM对一定比例的单词解释错误，且无法正确使用大部分单词来构造上下文句子。

其它亮点

实验结果揭示了开源聊天LLM在西班牙语方面的不足，强调了推动语言公平的重要性。

Open Source Conversational LLMs do not know most Spanish words

评论