Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages

简介

大型语言模型（LLMs）如GPT-4和LLaMA在自然语言处理任务方面表现出惊人的熟练度，甚至开始在其他模态（如视觉和音频）的任务中表现出色。尽管如此，由于可用的训练数据非常少，LLMs通常难以在资源匮乏的语言上表现良好。这种缺陷在开源模型中尤为普遍。在这项工作中，我们探索训练LLaMA-2说阿姆哈拉语，这是一种全球有超过5000万人口使用的语言，但可用数据比英语等语言少几个数量级。我们采用了先前用于训练LLMs在其他数据稀缺语言上的方法，并使用开源翻译模型进行数据增强，将我们的数据集从数百万个标记增加到数十亿个标记。我们进一步增强了模型的能力，通过连接图像编码器，并以LLaVA相同的方式训练翻译的视觉指令调整数据集，从而得到了一个能够理解图像和文本的多模式阿姆哈拉语LLM。我们引入了一个流行的基准数据集的阿姆哈拉语版本来评估我们的工作。我们的模型和数据集已经开源并可在GitHub上获得。
图表
解决问题

训练LLaMA-2模型以理解阿姆哈拉语，解决低资源语言处理的问题。
关键思路

使用开源翻译模型进行数据增强，连接图像编码器进行多模态学习。
其它亮点

论文使用数据增强方法将阿姆哈拉语数据从数百万个标记增加到数十亿个标记，使用LLaVA方法连接图像编码器进行多模态学习。实验结果表明，该模型在阿姆哈拉语任务上表现良好，开源了模型和数据集。
相关研究

最近的相关研究包括使用数据增强进行低资源语言处理的方法和多模态学习的方法，例如《Multimodal Language Processing with Unified Encoder-Decoder Models》和《Massively Multilingual Neural Machine Translation》。

Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages

评论