NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集，深度学习模型推理有了思维链

在回答复杂的问题时，人类可以理解不同模态的信息，并形成一个完整的思维链（Chain of Thought, CoT）。深度学习模型是否可以打开「黑箱」，对其推理过程提供一个思维链呢？近日，UCLA 和艾伦人工智能研究院（AI2）提出了首个标注详细解释的多模态科学问答数据集 ScienceQA，用于测试模型的多模态推理能力。在 ScienceQA 任务中，作者提出 GPT-3 (CoT) 模型，即在 GPT-3 模型中引入基于思维链的提示学习，从而使得模型能在生成答案的同时，生成相应的推理解释。GPT-3 (CoT) 在 ScienceQA 上实现了 75.17% 的准确率；并且人类评估表明，其可以生成较高质量的解释。

实验表明，目前的多模态问答方法在 ScienceQA 任务不能取得很好的表现。相反，通过基于思维链的提示学习，GPT-3 模型能在 ScienceQA 数据集上取得 75.17% 的准确率，同时可以生成质量较高的解释：根据人类评估，其中 65.2% 的解释相关、正确且完整。思维链也可以帮助 UnifiedQA 模型在 ScienceQA 数据集上取得 3.99% 的提升。

论文链接：https://arxiv.org/abs/2209.09513
代码链接：https://github.com/lupantech/ScienceQA
项目主页：https://scienceqa.github.io/
数据可视化：https://scienceqa.github.io/explore.html
Leaderboard：https://scienceqa.github.io/leaderboard.html

内容中包含的图片若涉及版权问题，请及时与我们联系删除

NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集，深度学习模型推理有了思维链

评论