作者: Adeep Hande、 Karthik Puranik、 Konthala Yasaswini、 Ruba Priyadharshini、 Sajeetha Thavareesan、 Anbukkarasi Sampath、 Kogilavani Shanmugavadivel、 Duraraj Thenmozhi、 Bharathi Raja Chakravarthi
摘要: 社交媒体已有效地成为沟通和数字营销的主要枢纽。由于这些平台能够在文本、图像和视频中自由表达思想和事实,因此非常需要对其进行筛选,以保护个人和群体免受针对他们的攻击性内容的侵害。作者的工作旨在对泰米尔语、卡纳达语和马拉雅拉姆语的达罗毗荼语言中的代码混合社交媒体评论/帖子进行分类。作者打算通过在数据集上生成伪标签来改进攻击性语言识别。自定义数据集是通过将所有代码混合文本音译为各自的达罗毗荼语言(卡纳达语、马拉雅拉姆语或泰米尔语),然后为音译数据集生成伪标签来构建的。使用生成的伪标签组合两个数据集以创建称为 CMTRA 的自定义数据集。由于达罗毗荼语言资源不足,作者的方法增加了语言模型的训练数据量。作者微调了几个最近新构建的数据集上的预训练语言模型。作者提取预训练的语言嵌入并将它们传递给循环神经网络。作者观察到,在自定义数据集上微调 ULMFiT 会在所有三种语言的代码混合测试集上产生最佳结果。作者的方法在泰米尔语-英语的基准模型中产生了最好的结果,实现了 0.7934 的加权 F1-Score,同时在马拉雅拉姆语-英语和卡纳达语-英语的代码混合测试集上分别获得了 0.9624 和 0.7306 的竞争加权 F1-Scores。
下载地址:https://arxiv.org/pdf/2108.12177
HUB地址:https://hub.baai.ac.cn/view/9644
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢