Clue-Instruct: Text-Based Clue Generation for Educational Crossword Puzzles

简介

本文介绍了一种构建教育性线索生成数据集的方法，以用于指导大型语言模型（LLMs）。与传统的填字游戏不同，教育性填字游戏的线索更加明确，更加注重事实。尽管存在几个公开可用的传统填字游戏线索-答案对数据库，但教育性线索-答案对数据集却缺失。通过从维基百科页面收集与相关关键词相关的信息性内容，我们使用大型语言模型自动生成与给定输入关键词及其上下文相关的教育性线索。通过这种方法，我们创建了一个数据集，名为“clue-instruct”，其中包含44,075个唯一的示例，每个示例包含与三个不同填字游戏线索相关的文本-关键词对。我们使用“clue-instruct”来指导不同的LLMs从给定的输入内容和关键词生成教育性线索。人工和自动评估都确认了生成的线索的质量，从而验证了我们方法的有效性。
图表
解决问题

如何构建教育性的填字游戏提示词对应的数据集？
关键思路

通过从维基百科页面中收集与相关关键词相关的信息，使用大型语言模型自动生成与输入关键词及其上下文相关的教育提示词，从而构建数据集。
其它亮点

论文提出了一种构建教育性提示词生成数据集的方法，并使用该数据集指导不同的大型语言模型生成教育性提示词。研究结果表明，生成的提示词质量较高，验证了该方法的有效性。
相关研究

在相关研究方面，目前已经有一些公开的提示词-答案对数据库，但缺乏教育性提示词的数据集。

Clue-Instruct: Text-Based Clue Generation for Educational Crossword Puzzles

评论