- 简介大型语言模型(LLMs)在科学研究评估中的应用日益广泛,特别是在自动论文评审方面。然而,现有的基于LLM的评审系统面临着诸多挑战,包括领域专业知识有限、推理出现幻觉以及缺乏结构化的评估。为了解决这些问题,我们引入了DeepReview,一个多阶段框架,旨在通过结合结构化分析、文献检索和基于证据的论证来模拟专家评审员的工作。利用DeepReview-13K这一经过精心整理并带有结构化注释的数据集,我们训练了DeepReviewer-14B,它在使用更少的token的情况下超越了CycleReviewer-70B。在其最佳模式下,DeepReviewer-14B在评估中对GPT-o1和DeepSeek-R1的胜率分别达到了88.21%和80.20%。我们的工作为基于LLM的论文评审设定了新的基准,并且所有资源均公开可用。代码、模型、数据集和演示已发布在http://ai-researcher.net。
-
- 图表
- 解决问题论文试图解决现有大型语言模型(LLM)在科学论文自动化评审中的局限性问题,包括领域知识不足、推理幻觉以及缺乏结构化评估框架。这是一个需要改进的已有问题,但通过引入更精细的框架和数据集,论文提出了一种新的解决方案。
- 关键思路关键思路是开发一个名为DeepReview的多阶段框架,该框架通过结合结构化分析、文献检索和基于证据的论证来模拟专家评审员的行为。相比其他研究,这篇论文不仅提出了一个专门设计的数据集DeepReview-13K,还训练了一个参数量较少但性能更高的模型DeepReviewer-14B,从而证明了高效利用数据和结构化方法的重要性。
- 其它亮点论文亮点包括:1) DeepReviewer-14B在少于CycleReviewer-70B参数量的情况下取得了更好的表现;2) 在对比实验中,DeepReviewer-14B对GPT-o1和DeepSeek-R1分别达到了88.21%和80.20%的胜率;3) 提供了高质量的开源资源,包括代码、模型、数据集和在线演示平台;4) 使用了精心标注的DeepReview-13K数据集进行训练和验证。这些工作为未来的研究提供了坚实的基础。
- 近期相关研究包括:1) CycleReviewer系列模型,专注于循环生成式评审;2) SciBERT等针对科学文本优化的语言模型;3) 文献《Automated Peer Review in Education: A Survey》综述了教育领域的自动化评审技术;4) 研究《Evaluating Scientific Claims with Language Models》探讨了使用LLM评估科学声明的可行性。这些研究共同推动了科学文本自动化处理的发展。
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流