01
题目:R-PRM: Reasoning-Driven Process Reward Modeling(主会)
作者:Shuaijie She (佘帅杰)∗ , Junxiao Liu (刘俊潇)∗ , Yifeng Liu (刘奕风) , Jiajun Chen (陈家骏), Xin Huang (黄鑫), Shujian Huang (黄书剑)
单位:南京大学,中国移动
链接:https://arxiv.org/abs/2503.21295
论文简介:
传统过程奖励模型 (PRM)直接输出各个解题步骤的评估得分,限制了奖励模型的学习效率与评估准确性,标注数据的稀缺进一步加剧了这一问题。
针对上述问题,我们提出了一种推理驱动的过程奖励模型(Reasoning-Driven Process Reward Model, R-PRM),仅利用少量标注数据让PRM自主探索和学习,充分利用模型推理能力,高效改进评估准确率。
具体而言,我们利用教师LLM进行初步冷启动,激活模型推理能力。其次,在无需额外标注的情况下,我们利用判断正确性作为奖励,通过迭代式偏好优化让模型持续自我探索和进化,不断提升能力。最后,我们在测试阶段,通过增加推理预算进一步激发模型能力。在 ProcessBench 和 PRMBench 上的实验结果表明,R-PRM极高效地取得了很好的评估精度,其F1分数分别比基于相当数据来源的Qwen2.5-Math-7B-PRM800K高出11.9和8.5,仅用15%的数据达到了Qwen2.5-Math-7B-PRM相当的水平,同时大幅度超过70B的教师模型,展示自我探索优化的有效性。同时,R-PRM通过指导策略模型推理,帮助其六个数学推理数据集上提升8.5准确率。进一步的分析表明,R-PRM 不仅具备更全面的评估能力,也展现出更强的泛化能力,为大模型数学推理能力突破提供支持。

02
题目:EnAnchored-X2X: English-Anchored Optimization for Many-to-Many Translation(主会)
作者:Sen Yang (杨森), Yu Bao (鲍宇), Yu Lu (卢宇), Jiajun Chen (陈家骏), Shujian Huang (黄书剑), Shanbo Cheng (程善伯)
单位:南京大学,字节跳动
论文简介:
大型语言模型(LLMs)在以英语为中心的语言对翻译任务中展现出了强大的能力,但在直接的非英语语言对(x2x)翻译任务中表现欠佳。本研究通过一个合成数据生成框架解决了这一局限性。该方法利用 LLM 的 en2x 能力和丰富的英语平行语料,构建生成与评估框架,以合成并筛选高质量 x2x 训练数据。结合基于偏好的优化方法(如 DPO),我们的方法在 72 个 x2x 翻译方向上对常用的大型语言模型均实现了显著性能提升,分别在Llama2-7B和TowerBase-7B基座上获得了7.0和4.8的BLEURT改进,后者全面超越了TowerInstruct-7B。我们的方法同时在通用化层面也改善了 en2x 的翻译表现。研究结果表明,利用模型在以英语为中心的翻译任务中的优势,能够助力大型语言模型获得全面的多语言翻译能力。

03
题目:SDGO: Self-Discrimination-Guided Optimization for Consistent Safety in Large Language Models(主会)
作者:Peng Ding (丁鹏), Wen Sun (孙文), Dailin Li (李岱霖), Wei Zou (邹威), Jiaming Wang (王家铭), Jiajun Chen (陈家骏), Shujian Huang (黄书剑)
单位:南京大学,美团,大连理工大学
链接:https://arxiv.org/abs/2508.15648
论文简介:
大语言模型(LLMs)在各种自然语言处理任务上表现出色,但仍然容易受到越狱攻击从而生成有害内容。在本文中,我们揭示了模型内部存在安全差异:LLMs作为判别器识别有害请求的能力比作为生成器防御这些请求的能力更强。这一洞察启发我们探索如何对齐模型自身的判别和生成能力。为此,我们提出了SDGO(Self-Discrimination-Guided Optimization)强化学习框架,利用模型自身的判别能力作为奖励信号,通过迭代式的自我提升(self-improvement)来增强其生成的安全性。我们的方法在训练阶段进行,且不需要任何额外的标注数据或推理开销。大量实验表明,无论是与基于提示或者基于训练的防御基线方法相比,SDGO显著提高了模型的安全性,同时在通用基准测试中保持了有用性。通过对齐LLMs的判别和生成能力,SDGO在面对分布外(OOD)越狱攻击时表现出强大的鲁棒性。这种对齐还能使得模型两种能力耦合得更加紧密,从而仅需少量的判别样本进行微调就能进一步增强模型的生成安全性。

04
题目:Understanding LLMs' Cross-Lingual Context Retrieval: How Good It Is And Where It Comes From(主会)
作者:Changjiang Gao(高长江), Hankun Lin(林涵坤), Xin Huang(黄鑫), Xue Han(韩雪), Junlan Feng(冯俊兰), Chao Deng(邓超), Jiajun Chen(陈家骏), Shujian Huang(黄书剑)
单位:南京大学,中国移动研究院
链接:https://arxiv.org/abs/2504.10906
论文简介:
跨语言上下文检索(根据一种语言的请求提取另一种语言的上下文信息)是跨语言对齐的一个基本方面,但其在大型语言模型(LLM)中的性能和机制尚不清楚。本文以跨语言机器阅读理解(xMRC)为代表场景,评估了12种语言的40多个LLM的跨语言上下文检索性能。结果表明,经过后训练的开放LLM表现出强大的跨语言上下文检索能力,可与GPT-4o等闭源LLM相媲美,并且它们的估计性能上限在后训练后大幅提升。我们的机制分析表明,跨语言上下文检索过程可以分为两个主要阶段:问题编码和答案检索,分别在训练前和训练后形成。阶段稳定性与 xMRC 性能相关,而 xMRC 瓶颈位于第二阶段的最后几个模型层,后训练的效果在此得以明显体现。我们的结果还表明,更大规模的预训练并不能提升 xMRC 性能。相反,更大规模的 LLM 需要进一步进行多语言后训练,才能充分释放其跨语言上下文检索的潜力。
05
题目:BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models)(findings)
作者:Xu Huang (黄旭), Wenhao Zhu (朱文昊), Hanxu Hu (胡涵旭), Conghui he (何聪辉), Lei Li (李磊), Shujian Huang (黄书剑), Fei Yuan(袁飞)
单位:南京大学,上海人工智能实验室,卡耐基梅隆大学,苏黎世大学
链接:https://arxiv.org/abs/2502.07346
论文简介:
现有的多语言基准测试多只包含语言理解类任务,但是缺乏能够全面衡量大语言模型(LLMs)在多语言场景下核心能力的基准,包括指令遵循、逻辑推理、代码生成和长上下文理解能力等等。为弥补这一空白,我们设计并开发了BenchMAX,一个多路平行的多语言评测基准,用于评估LLM在多个语言上的多种能力。BenchMAX覆盖10类多样化的任务,包含17种语言的测试样本,其中非英语样本由母语标注者精心标注,确保数据的高质量。基于BenchMAX的大量实验表明,模型在不同语言间的核心能力运用存在不均衡现象,并且仅靠扩大模型规模无法弥补语言之间的性能差距。BenchMAX作为一个综合性的多语言评测基准,为促进多语言模型的发展提供了理想的测试环境。数据集和代码已开源至github (https://github.com/CONE-MT/BenchMAX)和huggingface (https://huggingface.co/collections/LLaMAX/benchmax-674d7a815a57baf97b5539f4)。
06
题目:RealBench: A Chinese Multi-image Understanding Benchmark Close to Real-world Scenarios(findings)
作者:Fei Zhao(赵飞), Chengqiang Lu, Yufan Shen(沈宇帆), Qimeng Wang(王启萌), Yicheng Qian(钱一成), Haoxin Zhang(张浩鑫), Yan Gao, Yi Wu, Yao Hu, Zhen Wu(吴震), Shangyu Xing(邢尚禹), Xinyu Dai(戴新宇)
单位:南京大学,小红书,浙江大学
论文简介:
虽然目前已经出现了多种多模态多图评测数据集,但这些数据集主要基于英文,目前尚未有中文的多图数据集。为填补这一空白,我们提出了 首个中文多模态多图数据集RealBench,包含 9393 个样本和 69910 张图片。RealBench 的独特之处在于引入了真实的用户生成内容,确保了与实际应用的高度相关性。此外,该数据集覆盖了多种场景、图像分辨率和图像结构,进一步增加了多图理解的难度。最终,我们使用 21 个不同规模的多模态大语言模型对 RealBench 进行了全面评估,其中既包括支持多图输入的闭源模型,也包括开源的视觉和视频模型。实验结果表明,即便是最强大的闭源模型,在处理中文多图场景时依然面临挑战;而开源视觉/视频模型与闭源模型之间的性能差距仍然显著,平均约为 71.8%。这些结果说明,RealBench 为进一步探索中文语境下的多图理解能力提供了重要的研究基础。

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢