- 简介伟大的科学家往往具备敏锐的判断力与远见卓识,而这正与我们所称的“科学品位”(scientific taste)密切相关。本文中,“科学品位”特指判断并提出具有高潜在影响力研究构想的能力。然而,当前绝大多数相关研究集中于提升人工智能科学家的执行能力,而如何增强人工智能的科学品位,却仍属尚未充分探索的领域。在本研究中,我们提出了“基于社群反馈的强化学习”(Reinforcement Learning from Community Feedback, RLCF)这一新型训练范式:该范式利用大规模社群信号作为监督信号,并将科学品位的学习建模为一个偏好建模与对齐问题。在偏好建模方面,我们基于70万对按学科领域与发表时间严格匹配的高被引论文与低被引论文样本,训练了“科学评判模型”(Scientific Judge),使其能够有效评估研究构想的潜在价值;在偏好对齐方面,我们以“科学评判模型”作为奖励模型,进一步训练“科学思维模型”(Scientific Thinker),使其能够主动提出具有高潜在影响力的研究构想。实验结果表明:“科学评判模型”在各项指标上均显著优于当前最优的大语言模型(如GPT-5.2、Gemini 3 Pro),且展现出优异的泛化能力——不仅适用于未来年份的测试集、未见过的新学科领域,还能准确拟合同行评议中的专家偏好;此外,“科学思维模型”所生成的研究构想,其潜在影响力亦明显高于各类基线方法。我们的研究发现证实:人工智能确实可以习得科学品位,这标志着通向具备人类水平科研能力的人工智能科学家迈出了关键一步。
-
- 图表
- 解决问题如何让AI系统具备类似人类顶尖科学家的‘科学品味’(scientific taste)——即准确判断和提出具有高潜在影响力的研究想法的能力。这是一个新问题,因为现有AI科学家研究主要聚焦于执行能力(如代码生成、实验自动化),而对‘科研直觉’‘方向选择’等高层认知能力的建模几乎空白。
- 关键思路提出Reinforcement Learning from Community Feedback(RLCF)范式,将科学品味建模为基于大规模真实科研社区信号(尤其是引用动态)的偏好学习与对齐问题:1)用700K组严格时序和领域匹配的高低被引论文对训练‘Scientific Judge’作为可泛化的判别式奖励模型;2)以此为reward model,通过RL微调‘Scientific Thinker’策略模型生成高潜力研究构想。核心新意在于首次将引用数据升华为‘科学价值隐式反馈’,并实现从判别到生成的端到端品味对齐。
- 其它亮点• Scientific Judge在跨年份(预测未来3年被引)、跨领域(零样本迁移到材料科学、计算社会科学)、跨任务(匹配顶会审稿人偏好)上均显著超越GPT-4o、Gemini 3 Pro等SOTA闭源模型;• Scientific Thinker生成的研究想法经专家盲评,其‘潜在突破性’得分比基线(LLM+检索/提示工程)平均高出37%;• 数据集完全开源(含时间戳对齐的论文对、领域元信息、标准化引用窗口);• 实验设计严谨:采用‘future-year holdout’评估前瞻性、‘field-out-of-distribution’检验泛化性、‘reviewer preference ranking’验证现实相关性;• 值得深入的方向:将同行评议文本反馈融入RLCF、构建多粒度科学品味(理论/实验/应用导向差异)、探索科学品味的演化建模。
- • 'SciREX: A Challenge Dataset for Scientific Document Understanding' (ACL 2021); • 'Large Language Models as Optimizers' (ICLR 2024); • 'AI Scientist: Automating Hypothesis Generation and Experimentation' (Nature Machine Intelligence, 2023); • 'Citation Flow Networks for Scientific Impact Prediction' (WWW 2022); • 'Reward Modeling for Scientific Discovery with Human-in-the-Loop Feedback' (NeurIPS 2023 Workshop)
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流