- 简介我们提出了一个名为GPQA的具有挑战性的数据集,其中包含了448道由生物学、物理学和化学领域的专家编写的多项选择题。我们确保这些问题具有高质量和极高的难度:在相应领域拥有或正在攻读博士学位的专家达到了65%的准确率(如果不考虑专家事后识别出的明显错误,则达到了74%的准确率),而高技能的非专家验证者仅达到了34%的准确率,尽管他们平均花费了30分钟以上的时间来自由访问网络(即这些问题是“谷歌无法解决的”)。这些问题对于最先进的人工智能系统也很难,我们最强的基于GPT-4的基线只达到了39%的准确率。如果我们要使用未来的人工智能系统来帮助我们回答非常困难的问题,例如在开发新的科学知识时,我们需要开发可扩展的监督方法,使人类能够监督它们的输出,即使监督者本身是熟练和有知识的,这也可能很困难。GPQA的难度对于熟练的非专家和前沿的人工智能系统来说都很大,这应该能够进行现实的可扩展的监督实验,我们希望这些实验可以帮助设计出可靠地从超越人类能力的人工智能系统中获取真实信息的方法。
- 图表
- 解决问题本论文试图解决如何开发可靠的AI监督方法,以便人类专家能够从超越人类能力的AI系统中获取可靠的信息的问题。
- 关键思路本论文提出了一个高质量、极具挑战性的多项选择题数据集GPQA,用于进行可扩展的监督实验,以帮助开发可靠的AI监督方法。
- 其它亮点本论文的数据集GPQA由生物学、物理学和化学领域的专家撰写,难度极高,对于即使是高技能的非专家验证者来说也很难。此外,该数据集对于最先进的AI系统也很具有挑战性。作者还使用了强大的GPT-4模型作为基准线,但其准确率仅为39%。作者希望通过该数据集进行可扩展的监督实验,以帮助开发可靠的AI监督方法。
- 最近在这个领域中,还有一些相关研究,如:1.《A Survey of Methods for Explaining Black Box Models》;2.《Towards Transparent AI Systems: Interpreting Visual Question Answering Models》;3.《Interpretable Machine Learning: A Brief Overview》等。
沙发等你来抢
去评论
评论
沙发等你来抢