来源:AAAI2020 论文链接:https://www.msra.cn/wp-content/uploads/2020/01/A-Dataset-for-Low-Resource-Stylized-Sequence-to-Sequence-Generation.pdf
概述: 低资源样式化的序列到序列(S2S)生成是高需求的。但由于数据集在规模和自动评价方法上的局限性,阻碍了其发展。作者为低资源风格化的S2S构建了两个大规模、多参考数据集:易于评估的机器翻译形式语料库(MTFC)和解决聊天机器人中一个重要问题的Twitter会话形式语料库(TCFC)。这些数据集包含上下文到源样式的并行数据、源样式到目标样式的并行数据以及目标样式中的非并行语句,以实现半监督学习。作者提供了三个基线:基于轴的方法、师生方法和反向翻译方法。作者发现基于轴的方法是最差的,另外两种方法在不同的度量基准上获得了最好的效果。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢