SynDy: Synthetic Dynamic Dataset Generation Framework for Misinformation Tasks

Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '24), July 14--18, 2024, Washington, DC, USA
2024年05月17日
  • 简介
    Diaspora communities(移民社群)受到了不成文的错误信息的不成比例影响,而主流事实核查工作往往忽视了这些社群,因此需要大力推广刚刚起步的事实核查倡议。本文提出了SynDy框架,用于合成动态数据集以利用最大的前沿大型语言模型(LLMs)的能力来训练本地的、专门的语言模型。据我们所知,SynDy是第一个利用LLMs来创建与打击错误信息直接相关的细粒度合成标签的论文,即声明匹配、主题聚类和声明关系分类。SynDy利用LLMs和社交媒体查询自动生成远程监督、专注于主题的数据集,并为这三个任务提供合成标签,以低于人工标注数据成本的方式提供必要的工具来推广以人为主导的事实核查。在SynDy生成的标签上进行训练显示出比标准基线更好的效果,并且与在人工标签上进行的训练相比没有显著的劣势(这可能是不可行的)。SynDy正在被集成到Meedan的聊天机器人tiplines中,这些机器人被超过50个组织使用,每年为超过230,000个用户提供服务,并通过WhatsApp等消息应用程序自动分发人工编写的事实核查。SynDy还将被集成到我们部署的Co-Insights工具包中,使低资源组织能够为其社区启动tiplines。最后,我们设想SynDy将能够实现其他事实核查工具,例如将新的错误信息声明与常见错误信息主题的高质量解释器相匹配。
  • 作者讲解
  • 图表
  • 解决问题
    解决社区在应对偏离事实的信息时面临的困境,提供一种新的方法来生成合成数据集,以训练本地的、专业的语言模型。
  • 关键思路
    利用最大前沿的大型语言模型(LLMs)和社交媒体查询,自动生成具有合成标签的远程监督、专注于主题的数据集,从而为事实核查提供必要的工具。
  • 其它亮点
    SynDy是第一篇利用LLMs创建细粒度合成标签的论文,用于直接与打击偏离事实的信息有关的任务,即主张匹配、主题聚类和主张关系分类。SynDy的训练表现比标准基线有所改善,并且与人工标注的数据相比没有显著的劣势。SynDy已经被整合到Meedan的聊天机器人tiplines中,用于自动通过诸如WhatsApp之类的消息应用程序分发人工编写的事实核查。
  • 相关研究
    最近的相关研究包括基于深度学习的事实核查方法、自然语言处理技术在事实核查中的应用、社交媒体上的虚假信息检测等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问