RU-AI: A Large Multimodal Dataset for Machine Generated Content Detection

2024年06月07日
  • 简介
    最近生成式AI模型的进展,可以创造逼真和类人的内容,正在显著地改变人们的交流、创作和工作方式。适当使用生成式AI模型可以造福社会,但滥用会对数据可靠性和身份验证造成重大威胁。然而,由于缺乏对齐的多模态数据集,检测机器生成内容的有效和强大方法仍处于早期阶段。本文介绍了RU-AI,一个新的大规模多模态数据集,旨在稳健高效地检测文本、图像和语音中的机器生成内容。我们的数据集是从三个大型公共可用数据集Flickr8K、COCO和Places205构建而成,通过结合原始数据集及其对应的机器生成对。此外,实验结果表明,我们提出的统一模型,将多模态嵌入模块与多层感知器网络相结合,可以有效地确定数据的来源(即原始数据样本还是机器生成的数据),从RU-AI中。然而,未来仍需要解决RU-AI提出的剩余挑战。源代码和数据集可在https://github.com/ZhihaoZhang97/RU-AI上获得。
  • 图表
  • 解决问题
    本文旨在解决机器生成内容的检测问题,即如何有效地检测文本、图像和声音等多模态机器生成内容。这是一个新的问题,目前还处于早期阶段。
  • 关键思路
    本文提出了RU-AI数据集和一个统一的模型,用于多模态机器生成内容的检测。RU-AI数据集是从三个公共数据集中构建而成,包括原始数据和对应的机器生成数据。该模型结合了多模态嵌入模块和多层感知机网络,能够有效地确定数据的来源。
  • 其它亮点
    本文的亮点包括提出了RU-AI数据集,该数据集是一个大规模的多模态数据集,用于机器生成内容的检测。实验结果表明,提出的统一模型能够有效地检测机器生成内容。此外,作者还提供了开源代码和数据集,方便其他研究者使用和扩展。未来的工作可以进一步解决RU-AI数据集中存在的挑战。
  • 相关研究
    最近的相关研究包括使用深度学习方法检测机器生成内容的研究。例如,论文《A Deep Learning Approach to Detecting Machine-Generated Content》提出了一种基于深度学习的方法,用于检测机器生成的文本内容。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论