MultiSocial: Multilingual Benchmark of Machine-Generated Text Detection of Social-Media Texts

向作者提问

NEW

简介

最近的语言模型能够生成高质量的多语言文本，与真正由人类写作的文本无法区分。然而，机器生成文本检测的研究主要集中在英语和更长的文本上，例如新闻文章、科学论文或学生论文。社交媒体文本通常要短得多，经常出现非正式语言、语法错误或独特的语言项目（例如表情符号、主题标签）。在研究现有方法在检测此类文本的能力方面存在差距，这也反映在缺乏现有的多语言基准数据集上。为了填补这一空白，我们提出了第一个用于社交媒体领域机器生成文本检测基准测试的多语言（22种语言）和多平台（5个社交媒体平台）数据集，称为MultiSocial。它包含472,097个文本，其中大约58k是人类编写的，大约相同数量的文本由7个多语言语言模型生成。我们使用这个基准测试来比较现有的检测方法，包括零-shot和微调形式。我们的结果表明，微调检测器在社交媒体文本上训练没有问题，并且训练的平台选择很重要。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在填补现有机器生成文本检测方法在社交媒体领域的研究空白，提出了第一个适用于多语言和多平台的社交媒体机器生成文本检测基准数据集。
关键思路

论文使用了一个包含22种语言和5个社交媒体平台的数据集，其中包含由7个多语言LLM生成的大约58k个文本，使用这个基准数据集比较了现有机器生成文本检测方法的性能，结果表明fine-tuned的检测器在社交媒体文本上表现良好，平台选择对训练有影响。
其它亮点

论文提出了第一个适用于多语言和多平台的社交媒体机器生成文本检测基准数据集，并比较了现有机器生成文本检测方法的性能。实验使用的数据集包含22种语言和5个社交媒体平台，其中包含了大量的机器生成文本。实验结果表明，fine-tuned的检测器在社交媒体文本上表现良好，平台选择对训练有影响。
相关研究

近期的相关研究主要集中在英语语言和长文本上，如新闻文章、科学论文或学生论文等。本论文提出的多语言、多平台的基准数据集填补了这一研究空白。相关论文包括：“Detecting Machine-Generated Text Using Neural Networks”和“Automated Fake News Detection in Social Media: A Review”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问