- 简介本文介绍了ScholarChemQA,这是一个从化学论文构建的大规模问答数据集。化学问答在教育和研究中发挥着至关重要的作用,可以将复杂的化学信息转化为易于理解的形式。与其他领域的问答数据集相比,化学领域的问答数据集相对较少。本文提出了一种名为QAMatch的模型,专门针对化学问题进行设计,充分利用了我们收集到的数据。我们通过基于每个类别的反频率重新加权实例损失的方式解决了标签分布不均的问题,并利用未标记的数据丰富了学习过程。我们提出了一种基于SoftMix操作的数据增强方法,并确保它们的预测结果与相同的目标(即伪标签)相一致。为了确保伪标签的质量,我们提出了一种校准程序,旨在将单个样本的伪标签估计与期望的真实分布紧密对齐。实验证明,我们的QAMatch不仅在ScholarChemQA数据集上显著优于最近的类似规模的基线和大型语言模型(LLMs),而且在四个基准数据集上也表现出色。我们希望我们的基准数据集和模型可以促进更多关于化学问答的研究。
- 图表
- 解决问题本论文旨在构建一个大规模的化学问题回答(QA)数据集ScholarChemQA,并提出了一个名为QAMatch的模型来解决化学QA问题。
- 关键思路QAMatch模型采用了一系列创新策略来解决ScholarChemQA数据集中的类别不平衡和未标记数据的问题,包括基于类别频率的实例加权损失、基于SoftMix操作的数据增强、伪标签生成和校准。
- 其它亮点实验结果表明,QAMatch模型在ScholarChemQA数据集以及四个基准数据集上均优于最近的类似规模的基线和大型语言模型(LLMs)。该数据集和模型为化学QA领域的研究提供了重要的参考价值。
- 最近的相关研究包括但不限于:ChemBERTa、SciBERT、BioBERT等基于BERT的模型在化学和生物领域的应用。
沙发等你来抢
去评论
评论
沙发等你来抢