- 简介机器生成文本的自动评估方法由于生成系统的应用不断扩展而变得非常重要。传统方法往往难以解释,只能发出单一的数字分数来表示评估结果。最近的进展试图通过将大型语言模型(LLMs)纳入其中来缓解这种限制,以提供更详细的错误分析,但它们的适用性仍然受到限制,特别是在综合错误覆盖和快速检测至关重要的工业环境中。为了解决这些挑战,我们介绍了DEE,一种双阶段可解释评估方法,用于估计文本生成的质量。基于Llama 2构建的DEE遵循双阶段原则,根据阶段特定的指令进行操作,以在初始阶段对生成的文本中的错误进行高效识别,并随后深入提供全面的诊断报告。DEE在我们精心组装的AntEval数据集上进行了微调,该数据集包含来自Alipay的4个真实应用程序的15K个示例,这些应用程序采用了生成系统。该数据集涉及新出现的问题,如幻觉和毒性,从而扩大了DEE的评估标准的范围。实验结果证实,DEE在人类相关性和效率方面均优于现有的评估方法,取得了显着的改进。
-
- 图表
- 解决问题提出一种双阶段可解释评估方法DEE,用于评估生成文本的质量,解决了传统评估方法缺乏解释性的问题,同时在工业环境中具有广泛的适用性。
- 关键思路DEE方法采用双阶段原则,结合Llama 2模型,通过特定指令实现高效的错误识别,并提供全面的诊断报告。DEE在AntEval数据集上进行了Fine-tuning,该数据集包含4个Alipay应用程序的15K个示例,涵盖了新出现的问题,如幻觉和毒性,从而扩大了DEE的评估标准范围。
- 其它亮点实验结果表明,DEE在人类相关性和效率方面都优于现有的评估方法。值得注意的是,DEE使用了Llama 2模型和AntEval数据集,为工业环境中的文本生成提供了可行的评估方法。
- 近期的相关研究包括:1. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 2. GPT-3: Language Models are Few-Shot Learners 3. Large-Scale Language Model for Conversational Agents
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流