Scaling Synthetic Data Creation with 1,000,000,000 Personas

2024年06月28日
  • 简介
    我们提出了一种新颖的以人物驱动的数据合成方法,利用大型语言模型中的各种视角来创建多样化的合成数据。为了在规模上充分利用这种方法,我们引入了“Persona Hub”——这是一个从网络数据中自动筛选出的10亿个不同人物的集合。这些10亿个人物(约占世界总人口的13%),作为世界知识的分布式载体,可以利用LLM中几乎每个封装的视角,从而促进在各种场景下大规模创建多样化的合成数据。通过展示Persona Hub在大规模合成高质量的数学和逻辑推理问题、指令(即用户提示)、知识丰富的文本、游戏NPC和工具(函数)方面的应用案例,我们证明了以人物驱动的数据合成是多功能、可扩展、灵活且易于使用的,可能会推动合成数据创建和应用的范式转变,这可能会对LLM研究和开发产生深远的影响。
  • 图表
  • 解决问题
    本论文旨在提出一种新的人格驱动的数据合成方法,通过利用大型语言模型中的不同视角来创建多样化的合成数据。同时引入Persona Hub,它是从网络数据中自动筛选出的10亿个多样化的人格集合,可以利用LLM中几乎每个视角,从而为不同场景下的多样化合成数据提供支持。
  • 关键思路
    论文提出了一种新的人格驱动的数据合成方法,通过利用大型语言模型中的不同视角来创建多样化的合成数据。同时引入Persona Hub,它是从网络数据中自动筛选出的10亿个多样化的人格集合,可以利用LLM中几乎每个视角,从而为不同场景下的多样化合成数据提供支持。
  • 其它亮点
    论文展示了Persona Hub在合成高质量的数学和逻辑推理问题、指令(即用户提示)、知识丰富的文本、游戏NPC和工具(函数)等方面的应用,证明了人格驱动的数据合成是多才多艺、可扩展、灵活且易于使用的,可能会推动合成数据创建和实践应用的范式转变,对LLM研究和发展可能产生深远影响。
  • 相关研究
    最近的相关研究包括使用GAN生成合成数据的方法,以及使用预训练的语言模型生成文本数据的方法。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论