近日,Google研究人员提出一个大型从表转换到文本的英文数据集,已经在Git上开源。该数据集不仅提供了一个可以受控的句子生成任务,还提供了一个基于迭代语句修订的数据注释过程。实验结果证明,ToTTo可以作为有用且高效的数据集,用来帮助其他研究者建模研究,以及开发可以更好地检测模型改进的评估指标。
ToTTo包含121,000个训练示例,以及7,500个用于开发和测试的示例。由于标注的准确性,该数据集适合作为研究高精度文本生成的具有挑战性的benchmark。
感兴趣的可以戳链接。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢