- 简介作者验证(AV)(两个文档是否由同一作者撰写?)对许多敏感的实际应用至关重要。AV通常用于需要私有离线模型的专有领域,这使得像ChatGPT这样的SOTA在线模型不受欢迎。其他SOTA系统使用的方法,例如孪生网络,是不可解释的,因此在高风险应用中无法信任。在这项工作中,我们采取第一步来解决上述挑战,使用我们的模型CAVE(可控作者验证解释):CAVE生成的自由文本AV解释是可控的,因为它们可以被分解成与相关语言特征相关的子解释,并且容易通过子解释中的中间标签验证解释标签的一致性。在这项工作中,我们训练了一种名为Llama-3-8B的CAVE;由于没有用于AV解释的人类编写的语料库,我们从GPT-4-TURBO中采样银标准解释,并将其提炼成预训练的Llama-3-8B。在IMdB2、Blog-Auth和FanFiction三个困难的AV数据集上的结果表明,CAVE生成的解释质量高(通过自动和人工评估测量),并且具有竞争性的任务准确性。
-
- 图表
- 解决问题本论文旨在解决作者验证(AV)的问题,即如何判断两个文档是否由同一作者所写。同时,该论文还试图解决使用现有SOTA在线模型和不可信的不可解释的Siamese网络方法进行AV时面临的隐私和可解释性问题。
- 关键思路该论文提出了一种名为CAVE的模型,它可以生成受控的自由文本AV解释,这些解释具有结构化的特点,可以通过相关语言特征进行子解释的分解,并且可以通过子解释中的中间标签轻松验证解释标签的一致性。CAVE是基于Llama-3-8B进行训练的,使用了GPT-4-TURBO的银标准解释进行预训练。
- 其它亮点该论文的实验结果表明,CAVE生成的解释质量高,能够在三个难度较大的AV数据集上获得竞争性的任务准确度。此外,该论文还使用了自动和人工评估来验证CAVE生成的解释质量。
- 在相关研究方面,最近的研究包括使用深度学习方法进行AV以及解释生成。其中一些论文包括:“Deep Learning for Authorship Verification on Social Media Data”和“Generating Explanations for Natural Language Inference Tasks”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流