ACL(The Association for Computational Linguistics)是自然语言处理领域顶级国际会议之一,其涉及领域包括:信息抽取、语言生成、机器翻译、对话、多模态等,是CCF-A类国际学术会议。南京大学自然语言处理研究组共有七篇学术论文被ACL2024录用,其中,3篇主会,4篇Findings,均为长文。以下为本次七篇录用论文的介绍:

01


MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization主会)

作者:佘帅杰,邹威,黄书剑,朱文昊,刘响,耿祥,陈家骏

作者单位:南京大学

论文简介:

目前的模型在不同语言的推理缺乏一致性,语言间差异较大。我们提出了一个基于多语言对齐的偏好优化框架MAPO。MAPO将不同语言与英语推理过程的一致性作为一种偏好进行建模,并使用当下流行的偏好优化框架如DPO和PPO进行优化,可以达到提高一致性的效果。

实验结果表明,MAPO通过提高多语言推理一致性,改进了模型的多语言推理能力。通过与英文的对齐,其他语言的推理得到了显著提高。英文推理在这一过程中也有增强。以当前英文sota MetaMath模型的多语言版本为基础,在多语言推理Benchmark:MSVMAP,MGSM,MNumGLUESub上,MAPO把7B模型能力分别提升了11.7%,6.1%,13.7%,把13B模型能力分别提升了10.7%, 6.6%, 10.3%。提升后的结果是相应规模模型上新的最好水平(上述结果是10种语言的平均正确率)。

不同于多语言SFT,MAPO不需要对推理过程的标注;并且,在不参与训练的数据集上也有很好的性能提升,显示出很好的泛化能力。相关代码和模型均已开源,我们也期待未来有更多的多语言推理能力研究,可以和我们的框架合作,进一步改进大模型的多语言推理能力。

02


Measuring Meaning Composition in the Human Brain with Composition Scores from Large Language Models主会)

作者:高长江,李吉星,陈家骏,黄书剑

作者单位:南京大学,香港城市大学

论文简介:

意义复合,即通过将较小的单位(如语素或词语)组合成短语和句子含义的过程,在人类的语言理解中至关重要。尽管神经语言学的研究者已经广泛研究了大脑中参与意义复合的区域,但目前仍然缺乏一种计算方法,用来量化意义复合的程度。我们基于 Transformer 模型的前馈网络模块(FFN)的键-值记忆假说,引入了 Composition Score,一种新颖的模型化指标,旨在量化句子理解过程中,每一个位置上的意义复合程度。

实验结果表明:Composition Score 与词频和句法节点数量呈部分相关,但显示出更复杂的模式;与对照变量相比,组合评分与更广泛的大脑区域集群相关,并且在fMRI数据中表现出更高的回归分数;与组合评分相关的大脑区域包括那些与词频、结构处理和对词的一般敏感性相关的区域。

这项工作提出了一项有价值的意义复合指标,并说明了意义复合在人类句子理解过程中的多方面作用。

03

SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents主会)

作者:程瞰之,孙秋实,褚有刚,徐方植,李闫涛,张建兵,吴志勇

作者单位:南京大学上海 AI Lab

论文简介:

本工作构建了一个纯视觉的GUI(图形用户界面)智能体SeeClick,能够像人一样在手机、电脑和网页上仅仅通过观察屏幕的方式执行点击、输入等操作,无需任何GUI元数据(例如HTML)。SeeClick首次指明GUI Grounding(根据指令确定要操作元素的位置)是纯视觉路线的关键挑战,并为此提供了全流程的解决方案:1.收集并开源了一份GUI Grounding预训练数据;2.构建了一个相应的grounding评测基准ScreenSpot;3.在三个广泛使用的agent任务MiniWob、AITW和Mind2Web上证明了定位能力对agent性能的明显增益。SeeClick开创性地探索了纯视觉GUI智能体的可行性,并将相关数据、模型和代码全部开源以促进未来研究。

04

Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine TranslationFindings

作者:黄旭,张志锐,耿祥,杜逸超,陈家骏,黄书剑

作者单位:南京大学,腾讯AILab,中国科学技术大学

论文简介:

本工作探讨了大型语言模型(LLM)在机器翻译评估任务中如何利用源句和参考译文信息,以更深入地理解其出色表现背后的机制。我们通过设计多种对照实验,涵盖不同的输入模式和模型,并采用粗粒度或细粒度的提示,来评估源句与参考译文信息对LLM的影响。我们发现,参考译文信息显著提高了评估准确性。然而令人惊讶的是,源句信息反而有时会带来负面的作用,这表明LLM没有充分发挥跨语言的能力。进一步的细粒度评估和微调实验也显示了相似的结果。这些发现为LLM在机器翻译评估任务中的提供了潜在的研究方向,即如何充分利用LLM的跨语言能力,以在机器翻译评估任务中取得更好的表现。

05

Question Translation Training for Better Multilingual Reasoning(Findings)

作者:朱文昊,黄书剑,袁飞,佘帅杰,陈家骏,Alexandra Birch

作者单位:南京大学,上海 AI Lab,爱丁堡大学

论文简介:

大模型在推理任务上已经展现出了惊人的潜力,但是其多语言推理表现却十分不平衡。在本文中,我们提出了一种全新的两阶段对齐训练框架,首先利用多语言问题数据对基座模型进行微调,让其学会建立非英语问题与英语问题之间的对应关系;随后我们再借助这种建立好的针对性语言对齐,仅使用英语指令数据微调模型即可全面提升大模型的多语言推理能力。在LLaMA2-13B上的实验结果显示,我们的两阶段训练方案显著超过“翻译再训练”方案。在多语言数学推理基准数据集mGSM和mSVAMP上,我们的方案可以分别取得11.3%和16.1%的平均准确率提升。

06

MultiSQL: A Schema-Integrated Context-Dependent Text2SQL Dataset with Diverse SQL Operations(Findings)

作者:李春晖,王一帆,吴震,俞震,赵飞,黄书剑,戴新宇

作者单位:南京大学,腾讯

论文简介:

Text2SQL任务旨在将自然语言转换为SQL语句,而依赖上下文的Text2SQL通过模拟用户与数据库之间的对话,实现了更为自然的数据库交互方式。尽管如此,现有的CoSQL和SparC等数据集在模拟真实应用场景方面仍有局限。为此,本文构造了MultiSQL,它在三个方面进行了创新:(1) 引入创建(Create)、更新(Update)和插入(Insert)等多样化的SQL操作;(2) 结合数据库模式依赖性整合查询上下文;(3) 扩展对话长度,模拟复杂交互。MultiSQL包含800组对话,9000多个交互轮次,覆盖166个数据库,提供了更全面的基准测试。我们还设计了评价指标和提示框架,利用历史数据和自我改进方法捕捉查询与数据库结构的依赖关系。GPT-3.5、GPT-4和LLaMA2-7B的实验验证了我们方法的有效性,并展示了MultiSQL的挑战。

07

A Two-Agent Game for Zero-shot Relation Triplet Extraction(Findings)

作者:徐婷,杨海钦,赵飞,吴震,戴新宇

作者单位:南京大学,IDEA研究院

论文简介:

关系三元组抽取(RTE)是自然语言处理中的基础任务之一,旨在识别文本中的实体及其相互关系。在零样本设置中(ZeroRTE),训练数据和测试数据之间的关系集合是不相交的,这无疑增加了任务的难度。现有方法通过将关系直接融合到提示中来处理这一任务,这可能导致对未见关系的不充分理解。为此,本文提出了一种双智能体博弈(Two-Agent Game, TAG)框架,用以深入思考和讨论未见关系的语义。TAG由两个智能体组成,一个生成器和一个抽取器。它们通过三个关键步骤进行迭代交互:尝试(attempt)、批评(criticize)和修正(rectify),这三个步骤中,两个智能体能够充分讨论未见关系的语义,从而提高对未见关系的理解。实验结果显示,与ALBERT-Large、BART和GPT3.5等现有模型相比,TAG方法在所有情况下均实现了一致的性能提升,并且没有带来额外的推理成本。


内容中包含的图片若涉及版权问题,请及时与我们联系删除