【论文标题】TextFlint: Unified Multilingual Robustness Evaluation Toolkit for Natural Language Processing 【作者团队】Tao Gui, Xiao Wang, Qi Zhang, Qin Liu, Yicheng Zou, Xin Zhou, Rui Zheng, Chong Zhang, Qinzhuo Wu, Jiacheng Ye, Zexiong Pang, Yongxin Zhang, Zhengyan Li, Ruotian Ma, Zichu Fei, Ruijian Cai, Jun Zhao, Xinwu Hu, Zhiheng Yan, Yiding Tan, Yuan Hu, Qiyuan Bian, Zhihua Liu, Bolin Zhu, Shan Qin, Xiaoyu Xing, Jinlan Fu, Yue Zhang, Minlong Peng, Xiaoqing Zheng, Yaqian Zhou, Zhongyu Wei, Xipeng Qiu, Xuanjing Huang 【发表时间】2020/03/21 【机 构】复旦大学 【论文链接】https://arxiv.org/abs/2103.11441

【推荐理由】 本文来自复旦大学,作者为NLP任务提出了一个多语言鲁棒性评估平台TextFlint,该平台结合了通用文本转换,特定于任务的转换,对抗性攻击,子群体及其组合,以提供全面的鲁棒性分析。 研究者们已经针对不同的自然语言处理(NLP)任务从不同的角度提出了各种鲁棒性评估方法。这些方法通常集中于通用或特定于任务的概括功能。在这项工作中,作者为NLP任务提出了一个多语言鲁棒性评估平台TextFlint,该平台结合了通用文本转换,特定于任务的转换,对抗性攻击,子群体及其组合,以提供全面的鲁棒性分析。TextFlint使从业人员可以从各个方面自动评估他们的模型,或仅需几行代码即可根据需要自定义评估。为了保证用户的接受度,所有文本转换都是基于语言的,作者对每个文本转换都进行了人工评估。TextFlint生成完整的分析报告以及针对性的扩充数据,以解决模型健壮性的缺点。为了验证TextFlint的实用程序,作者对最先进的深度学习模型,经典监督方法和实际系统进行了大规模的经验评估(超过67,000个评估)。几乎所有模型都表现出明显的性能下降,包括在诸如方面级别的情感分类,命名实体识别和自然语言推理等任务上,BERT的预测准确性下降了50%以上。

内容中包含的图片若涉及版权问题,请及时与我们联系删除