DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process

向作者提问

NEW

简介

大型语言模型（LLMs）在科学研究评估中的应用日益广泛，特别是在自动论文评审方面。然而，现有的基于LLM的评审系统面临着诸多挑战，包括领域专业知识有限、推理出现幻觉以及缺乏结构化的评估。为了解决这些问题，我们引入了DeepReview，一个多阶段框架，旨在通过结合结构化分析、文献检索和基于证据的论证来模拟专家评审员的工作。利用DeepReview-13K这一经过精心整理并带有结构化注释的数据集，我们训练了DeepReviewer-14B，它在使用更少的token的情况下超越了CycleReviewer-70B。在其最佳模式下，DeepReviewer-14B在评估中对GPT-o1和DeepSeek-R1的胜率分别达到了88.21%和80.20%。我们的工作为基于LLM的论文评审设定了新的基准，并且所有资源均公开可用。代码、模型、数据集和演示已发布在http://ai-researcher.net。
作者讲解·2
- 讲解视频(1)
- 相关报道(1)
图表
解决问题

论文试图解决现有大型语言模型（LLM）在科学论文自动化评审中的局限性问题，包括领域知识不足、推理幻觉以及缺乏结构化评估框架。这是一个需要改进的已有问题，但通过引入更精细的框架和数据集，论文提出了一种新的解决方案。
关键思路

关键思路是开发一个名为DeepReview的多阶段框架，该框架通过结合结构化分析、文献检索和基于证据的论证来模拟专家评审员的行为。相比其他研究，这篇论文不仅提出了一个专门设计的数据集DeepReview-13K，还训练了一个参数量较少但性能更高的模型DeepReviewer-14B，从而证明了高效利用数据和结构化方法的重要性。
其它亮点

论文亮点包括：1) DeepReviewer-14B在少于CycleReviewer-70B参数量的情况下取得了更好的表现；2) 在对比实验中，DeepReviewer-14B对GPT-o1和DeepSeek-R1分别达到了88.21%和80.20%的胜率；3) 提供了高质量的开源资源，包括代码、模型、数据集和在线演示平台；4) 使用了精心标注的DeepReview-13K数据集进行训练和验证。这些工作为未来的研究提供了坚实的基础。
相关研究

近期相关研究包括：1) CycleReviewer系列模型，专注于循环生成式评审；2) SciBERT等针对科学文本优化的语言模型；3) 文献《Automated Peer Review in Education: A Survey》综述了教育领域的自动化评审技术；4) 研究《Evaluating Scientific Claims with Language Models》探讨了使用LLM评估科学声明的可行性。这些研究共同推动了科学文本自动化处理的发展。

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问