ChatQA: Building GPT-4 Level Conversational QA Models

简介

本文介绍了ChatQA，这是一组会话式问答模型，能够获得GPT-4级别的准确性。具体而言，我们提出了一种两阶段指令调整方法，可以显著改善大型语言模型（LLMs）的零-shot会话式问答结果。为了处理会话式问答中的检索增强生成，我们在多轮问答数据集上对密集检索器进行微调，这提供了与使用最先进的查询重写模型相当的结果，同时大大降低了部署成本。值得注意的是，我们的ChatQA-70B在10个会话式问答数据集上的平均得分（54.14比53.90）超过了GPT-4，而且不依赖于OpenAI GPT模型的任何合成数据。
图表
解决问题

本论文旨在提出一种能够获得与GPT-4水平相当的对话问答模型，解决零样本对话问答的问题。同时，通过细调密集的检索器来处理检索增强生成的对话问答。
关键思路

本文提出了一种两阶段指令调整方法，能够显著提高大型语言模型（LLMs）的零样本对话问答结果。通过在多轮问答数据集上对密集检索器进行微调，实现了检索增强生成的对话问答。
其它亮点

论文中提出的ChatQA-70B在10个对话问答数据集上的平均得分比GPT-4高（54.14 vs. 53.90），而且没有依赖于OpenAI GPT模型的任何合成数据。此外，该论文使用了开源代码，并提供了多个数据集用于实验。
相关研究

最近在这个领域中，还有一些相关研究，例如《GPT-4: Generative Pre-training Transformer 4》、《A Survey of Conversational Question Answering》等。

ChatQA: Building GPT-4 Level Conversational QA Models

评论