Large Language Models in Targeted Sentiment Analysis

2024年04月18日
  • 简介
    本文研究了使用基于解码器的生成变压器来提取俄语新闻文章中命名实体的情感。我们研究了指令调整的大型语言模型(LLM)的情感分析能力。我们在研究中考虑了RuSentNE-2023数据集。第一组实验旨在评估具有封闭和开放透明度的LLM的零-shot能力。第二组实验涵盖了使用“思维链”(CoT)三跳推理框架(THoR)对Flan-T5进行微调。我们发现,零-shot方法的结果与基线微调编码器为基础的变压器(BERT-base)的结果相似。带有THoR的经过微调的Flan-T5模型的推理能力相比于零-shot实验的基础模型至少提高了5%。在RuSentNE-2023上进行的情感分析的最佳结果是通过微调Flan-T5-xl实现的,它超过了以前基于变压器的分类器的最新结果。我们的CoT应用程序框架可公开访问:https://github.com/nicolay-r/Reasoning-for-Sentiment-Analysis-Framework。
  • 图表
  • 解决问题
    本论文旨在研究使用基于解码器的生成变压器来提取俄语新闻文章中针对命名实体的情感分析能力。论文试图验证指导调整的大型语言模型(LLMs)的情感分析能力,并在RuSentNE-2023数据集上进行评估。
  • 关键思路
    论文的关键思路是使用Flan-T5模型结合“chain-of-thought”(CoT)三次跳推理框架(THoR)进行微调,以提高情感分析的准确性。该方法在RuSentNE-2023数据集上取得了比之前基于变压器的分类器更好的结果。
  • 其它亮点
    论文的亮点包括使用生成变压器进行情感分析、使用THoR框架进行微调以提高准确性、在RuSentNE-2023数据集上取得了比之前的分类器更好的结果。该论文的CoT应用框架已公开。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如“Attention Is All You Need”和“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论