- 简介在这项工作中,我们揭示并研究了大型语言模型(LLMs)的特异性——这些模型输出中的独特模式可以用来区分不同的模型。为此,我们考虑了一个简单的分类任务:给定一个特定的文本输出,目标是预测生成该文本的LLM来源。我们在不同的LLM组中评估了这一合成任务,发现仅通过对现有文本嵌入模型在LLM生成的文本上进行微调,就能获得极高的分类准确性。值得注意的是,在涉及ChatGPT、Claude、Grok、Gemini和DeepSeek的五分类问题中,我们在保留的验证数据上达到了97.1%的准确率。我们的进一步研究表明,这些特异性源于词级分布。即使文本被重写、翻译或由外部LLM概括,这些模式仍然存在,表明它们也编码在语义内容中。此外,我们利用LLM作为评判者,生成了对每个模型特异性的详细、开放式的描述。最后,我们讨论了我们的研究结果带来的更广泛影响,特别是在使用合成数据进行训练和推断模型相似性方面。代码可在https://github.com/locuslab/llm-idiosyncrasies 获取。
- 图表
- 解决问题该论文试图解决如何区分由不同大型语言模型(LLMs)生成的文本的问题。具体来说,它探索了这些模型输出中的独特模式或特征,这些模式可以用于识别生成特定文本的LLM。这是一个相对较新的问题,随着LLM的广泛应用和多样化,准确识别其来源变得越来越重要。
- 关键思路论文的关键思路是通过细调现有的文本嵌入模型来识别LLM生成文本中的独特模式。研究发现,通过这种方式可以在多个LLM之间实现极高的分类准确性(例如,在五个LLM之间的分类中达到97.1%的准确率)。这一方法的新颖之处在于它利用了现有技术,并揭示了LLM输出在词汇分布层面的独特性,这些特征即使在文本被改写、翻译或总结后仍然存在。
- 其它亮点亮点包括:1) 实验设计涉及对多种LLM生成的文本进行分类,验证了方法的有效性;2) 研究表明LLM输出的语义内容中也编码了这些独特模式;3) 使用其他LLM作为‘评委’生成详细描述,增加了结果的可信度;4) 提供了开源代码(https://github.com/locuslab/llm-idiosyncrasies),方便后续研究者复现和扩展工作。值得进一步研究的方向包括探索这些模式的具体成因及其对训练数据的影响。
- 近期相关研究还包括《Detecting and Analyzing Biases in Large Language Models》、《Evaluating the Robustness of NLP Models Through Adversarial Attacks》以及《Comparative Analysis of Pre-trained Language Models Across Multiple Domains》等。这些研究从不同角度探讨了LLM的行为特征和潜在问题,为理解LLM的工作机制提供了丰富的背景。
沙发等你来抢
去评论
评论
沙发等你来抢