EMNLP(Conference on Empirical Methods in Natural Language Processing)是自然语言处理领域顶级国际会议之一,其涉及领域包括但不限于机器翻译、文本生成、文本分类、信息抽取、问答系统、语言模型等研究方向。南京大学自然语言处理研究组共有七篇学术论文被EMNLP2024录用,其中,5篇主会(含1篇短文),2篇findings(含1篇短文)。以下为本次七篇录用论文的介绍:

01


EFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models

类型:main, long paper

作者:邢尚禹,赵飞,吴震,安妥,陈伟豪,李春晖,张建兵,戴新宇

作者单位:南京大学

论文简介:

多模态大规模语言模型(MLLM)可能生成与对应图像物体不相符的文本描述,这种现象称为多模态物体幻觉。为消除多模态物体幻觉,现有方法通过人工标注有幻觉和无幻觉的多模态训练数据,并使用各种对齐算法来提高图像与文本之间的对齐能力。然而,这些方法不仅需要大量计算资源,还需昂贵的人工标注来构建训练数据。为了解决这些问题,本文提出一种高效的细粒度遗忘学习框架(EFUF),识别现有多模态数据中潜在的幻觉信号并进行遗忘学习,无需手工标注的幻觉数据即可缓解幻觉问题。实验表明,本文方法在保持文本生成质量的同时,显著减少了幻觉现象,且仅需较低的计算开销。

02


Formality Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge

类型:main, long paper

作者:李家欢,曹沂青,黄书剑,陈家骏

作者单位:南京大学

论文简介:

经过海量文本上的预训练,大语言模型在许多知识密集型任务上展示出了不俗的能力。然而,现有的预训练文本常常会包含误导性的、甚至是互相冲突的知识,研究大语言模型在面对这种类型的数据时的学习模式具有重要价值。本文针对大语言模型面对包含冲突知识的数据时的学习偏好进行了研究。研究发现,在面对知识冲突时,大语言模型具有和人类相似的学习偏好,例如更偏好于正式的文本和具有更少语法错误的文本。这种偏好在不同语言、不同规模的大模型上都能观察到。通过一系列反事实的控制实验,本文验证了这种偏好产生的原因:文本带有前述特征意味着该文本更有可能包含与训练集中其余数据一致的知识,而大语言模型在面临冲突知识时,能够借助这类特征选择更可能一致的知识进行学习。

03


PreAlign: Boosting Cross-lingual Transfer by Early Establishment of Multilingual Alignment

类型:main, long paper

作者:李家欢,黄书剑,Aarron Ching,戴新宇,陈家骏

作者单位:南京大学

论文简介:

多语言大模型能够在预训练过程中建立起一定程度的多语言对齐,但分析表明,这种自发建立的对齐仍然较弱。尽管前人工作尝试着通过在预训练过程中或者预训练之后显式注入对齐信息的方式增强模型的多语言对齐能力,但这种影响对模型在预训练过程的增益较弱。本文提出PreAlign, 一种将多语言对齐提前到大规模语言训练之前的预训练框架。在预训练之前,PreAlign通过训练模型产生多语言对齐的表示的方式初始化语言模型;在预训练过程中,PreAlign通过语码转换的策略始终保持模型具有较高的多语言对齐,以促进模型进行语言建模能力和知识的跨语言迁移。在合成语言和真实语言上的大量实验表明,PreAlign建立了更好的多语言对齐,并可显著提升模型的跨语言迁移能力。

04


Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners

类型:main, long paper

作者:张世茂,高长江,朱文昊,陈家骏,黄鑫,韩雪,冯俊兰,邓超,黄书剑

作者单位:南京大学,中国移动研究院

论文简介:

大多数现有的大语言模型在不同语言之间的任务表现非常不平衡。多语言对齐是增强大语言模型多语言能力的有效方法。在本文中,我们首先发现并全面研究了大语言模型的自发多语言对齐提升现象。我们发现使用问题翻译数据(即没有标注答案)对大模型进行微调对齐能够有效地促进英语与多种语言之间的内部对齐,甚至包括大量在微调过程中未见过的语言。我们在多种语言、任务和模型上验证了我们的结论。此外,我们还使用多种实验设置和机制可解释性方法分析了大语言模型在多语言场景中的表现。我们的研究表明,大语言模型具有很强的语言和任务泛化能力,在进行多语言对齐的高效提升方面具有巨大潜力。

05


Large Language Models are Limited in Out-of-Context Knowledge Reasoning

类型:findings, long paper

作者:胡鹏,高长江,高睿奇,陈家骏,黄书剑

作者单位:南京大学

论文简介:

LLMs具有丰富的知识以及具备强大的上下文推理能力,但其利用训练数据中的知识进行推理(out-of-context reasoning)的能力仍受质疑。 本论文研究了out-of-context reasoning的一个重要方面——Out-of-Context Knowledge Reasoning (OCKR),即通过组合训练集中的多项知识推断新知识。我们针对性设计了包含多个任务的合成数据集来评估LLMs的OCKR能力,结果显示模型这方面能力有限。通过进行推理、检索等方面辅助训练并进行对比分析,我们发现模型在主动进行训练知识检索以及检索关系类型的知识等方面存在困难。我们还将跨语言知识迁移视为一种特殊的OCKR形式,结果显示模型在跨语言知识迁移能力上同样表现不佳。 本研究揭示了大语言模型在知识推理方面的难点问题,希望能推动相关研究,克服知识检索瓶颈,提升大语言模型的知识推理能力。

06

EfficientRAG: Efficient Retriever for Multi-Hop Question Answering

类型:main, short paper

作者:庄子元,张智洋,程思陶,杨方凯,刘嘉,黄书剑,林庆维, Saravan Rajmohan, 张冬梅,张祺

作者单位:南京大学,微软

论文简介:

检索增强生成(RAG)方法在处理复杂问题(如多跳查询)时遇到困难。虽然迭代检索方法通过收集额外信息提高了性能,但现有方法通常依赖于多次调用大型语言模型(LLMs)。在本文中,我们提出了EfficientRAG,一种用于多跳问答的高效检索器。EfficientRAG能够在每次迭代时生成新的查询,而无需每次都调用LLM,并且可以过滤掉无关信息。实验结果表明,EfficientRAG在三个开放域多跳问答数据集上优于现有的RAG方法。

07

Multilingual Contrastive Decoding via Language-Agnostic Layers Skipping

类型:findings, short paper

作者:朱文昊,刘斯哲,黄书剑,佘帅杰,Chris Wendler,陈家骏

作者单位:南京大学,洛桑联邦理工学院

论文简介:

作为一种解码阶段的增强技术,DoLa旨在通过对比中间层输出和最终输出的概率分布来提高大语言模型的生成质量。但是,这种方法在非英语上表现不佳。受先前关于模型前向计算期间语言转换现象的可解释性工作的启发,我们发现这个问题是由中间层输出和最终输出之间的语言不匹配引起的。在这项工作中,我们提出了一种改进的对比解码算法,其使用跳过某些中间层后的最终输出代替DoLa算法中的最终输出,该算法对英语以外的多种语言都有效。为了获得更好的中间层输出分布,我们进行了初步分析,并据此设计了两种策略来选择合适的跳过层范围。在多语言推理任务上的实验结果表明,我们提出的方法优于以前的对比解码基线方法,并显着提高了大语言模型在11种语言上的思维链推理准确性。

内容中包含的图片若涉及版权问题,请及时与我们联系删除