港中文&SenseTime:更好地将文本到图像模型与人类偏好对齐

深度生成模型快速增长,文本到图像模型在公众中获得了显着关注。现有的模型常常生成的图像与人类审美偏好不符,本文收集了一个人类选择生成图像的数据集,目前的生成模型评估指标与人类选择的相关性不高。本文使用收集的数据集训练了一个人类喜好分类器,并根据分类器得出了基于人类喜好的得分(HPS)。使用HPS,本文提出了一种简单而有效的方法,将Stable Diffusion适应于更符合人类审美偏好。
4
收藏
0
unarXive 2022: 利用ArXiv进行NLP模型训练

学术出版物的大规模数据集是进行各种文献计量分析和自然语言处理(NLP)应用的基础。特别是最近从全文派生的数据集已经引起了广泛的关注。虽然已经存在一些这样的数据集,但我们认为在领域和时间覆盖、引文网络完整性和全文内容表示方面存在关键的缺陷。我们提出了一个新版本的数据集unarXive。我们基于两个现有数据集的数据处理流程和输出格式,我们的结果数据集包括1.9 M篇跨越多个学科和32年的出版物。
4
收藏
0
苏黎世大学 | ChatGPT在文本注释任务中表现优于众包工作者

【推荐理由】本文证明了ChatGPT在几个NLP注释任务中表现优于众包工作者,【摘要】许多自然语言处理应用程序需要手动数据注释来完成各种任务,尤其是训练分类器或评估无监督模型的性能。可以通过MTurk等平台的众包工作者或受过训练的注释员来完成,证明了ChatGPT在几个注释任务中优于众包工作者,包括相关性、立场、主题和框架检测,ChatGPT的零-shot准确率在五个任务中有四个优于众包工作者。
4
收藏
0
ChatGPT or Grammarly,基于语法纠错基准的ChatGPT评测

ChatGPT是由OpenAI开发的先进人工智能语言模型,因其出奇的强大的回答跟进问题的能力而引起了很多关注。我们旨在评估ChatGPT在语法错误纠正(GEC)任务中的表现,并将其与商业GEC产品(例如Grammarly)和最先进的模型(例如GECToR)进行比较。通过在CoNLL2014基准数据集上进行测试,我们发现在自动评估指标(例如F0.5分)方面。
4
收藏
0
华盛顿大学&MetaAI:使用无监督领域发现扩展专家语言模型

大型语言模型通常是密集训练的:所有参数均根据所有输入进行更新。这需要在数千个GPU之间同步数十亿个参数。可以在任意文本语料库上异步训练大型稀疏语言模型。本文的方法将语料库聚类成相关文档集,针对每个集群训练一个单独的专家语言模型,这种方法通过自动发现每个专家的域,并消除了现有稀疏语言模型的几乎所有通信开销。本文的技术在多个语料库和少样本任务上优于密集基线。
1
0
0
Microsoft | MEGA: 生成式人工智能的多语言评价
发现生成式模型在一些语言和任务上表现不佳。MEGA是全面评估生成式自然语言模型的第一个基准。发现生成式模型在一些低资源语言和任务上表现不佳。发现前者在高资源语言和拉丁文字母语言上表现更好,推荐研究人员在自然语言生成领域优先考虑自动基准测试和人工评估跨越尽可能多的语言。
1
0
0

查看更多 
热门榜单
- 活动合作
- 微信社群