Clinical Reading Comprehension with Encoder-Decoder Models Enhanced by Direct Preference Optimization

简介

在医院产生的大量临床文本中进行抽取式问答是一个重要的需求。虽然编码器模型（例如BERT）在这种阅读理解任务中很受欢迎，但最近编码器-解码器模型（例如T5）正在兴起。还出现了优化偏好的技术，以将仅解码的LLM与人类偏好对齐。在本文中，我们将编码器-解码器模型与直接偏好优化（DPO）方法相结合，通过新的启发式方法生成偏好数据，从而在RadQA放射学问答任务中将先前的最佳水平提高了12-15个F1点。据我们所知，这一努力是首次表明DPO方法也适用于阅读理解。
图表
解决问题

本论文旨在通过结合编码器-解码器模型和直接偏好优化（DPO）方法，提高放射学问答任务的准确性，同时提出了一种新的启发式方法来生成偏好数据，以避免人工输入。
关键思路

本论文的关键思路是将编码器-解码器模型与DPO方法相结合，通过新的偏好数据生成方法提高放射学问答任务的准确性。
其它亮点

本论文通过实验表明，与其他方法相比，使用DPO方法可以将放射学问答任务的F1值提高12-15个百分点。此外，本论文提出的偏好数据生成方法可以避免人工输入，具有一定的实用性。论文使用的数据集和开源代码也可以为相关研究提供参考。
相关研究

在最近的相关研究中，也有一些关于编码器-解码器模型和偏好优化方法的探索。例如，一些研究使用了BERT等编码器模型来进行问答任务，而另一些研究则探索了使用偏好数据来优化生成模型的方法。

Clinical Reading Comprehension with Encoder-Decoder Models Enhanced by Direct Preference Optimization

评论