- 简介本文设计了一种过程,通过使用大型语言模型(LLMs)逐步将自然语言翻译为一阶逻辑(FOL),并利用可满足模理论(SMT)求解器来推理公式的有效性,并将输入分类为谬误或有效语句,从而可靠地检测逻辑谬误。我们的模型还提供了一种新颖的方法,利用LLMs解释SMT求解器的输出,提供关于说明为什么给定句子被认为是逻辑谬误的反例的见解。我们的方法是稳健的、可解释的,不需要训练数据或微调。我们在一个混合的谬误和有效语句数据集上评估了我们的模型。结果表明,与端到端的LLMs相比,我们的分类器在逻辑数据集上实现了71%的F1分数。该方法能够有效地推广,在挑战集LogicClimate上实现了73%的F1分数,尽管其规模要小得多,但比最先进的模型高出21%。
- 图表
- 解决问题本论文尝试通过将自然语言逐步转换为一阶逻辑(FOL),并使用大型语言模型(LLMs)来可靠地检测逻辑谬误,以跟踪误导性信息和验证论断。
- 关键思路本论文的关键思路是将自然语言逐步转换为一阶逻辑,然后使用Satisfiability Modulo Theory(SMT)求解器推理公式的有效性,并将输入分类为谬误或有效语句。
- 其它亮点本论文的方法稳健、可解释且不需要训练数据或微调。使用混合数据集进行评估,结果表明相对于端到端LLMs,本文的分类器在Logic数据集上实现了71%的F1分数。该方法能够有效地推广,LogicClimate挑战集的F1分数达到73%,尽管其规模要小得多。
- 最近的相关研究包括使用逻辑编程和机器学习技术来检测逻辑谬误,如《Detecting Logical Fallacies in Natural Language Arguments Using Deep Learning》和《A Logical Approach to Fallacy Detection》。
沙发等你来抢
去评论
评论
沙发等你来抢