SS-Bench: A Benchmark for Social Story Generation and Evaluation

2024年06月22日
  • 简介
    自闭症谱系障碍(ASD)儿童经常误解社交情境,难以参与日常活动。心理学专家编写社交故事时,必须遵循结构清晰、描述明确和情境安全等严格要求,以增强这些能力。然而,社交故事的创作成本高昂,且种类和时效性通常有限。随着大型语言模型(LLMs)变得越来越强大,需要更多自动化、经济实惠、易于使用的方法,以实时广泛地生成社交故事。将LLMs适应社交故事的独特和严格要求是一个具有挑战性的问题。为此,我们提出了SS-Bench,一个用于生成和评估社交故事的基准测试。具体而言,我们开发了一种基于约束的策略,名为StarSow,以分层提示LLMs生成社交故事,并建立了一个基准测试,通过实验验证了其优化生成合格社交故事的效果。此外,我们引入了质量评估标准,用于人类和GPT评估,以验证生成故事的有效性。我们希望这项工作有助于自闭症社区,并催生未来针对特定群体的研究。
  • 作者讲解
  • 图表
  • 解决问题
    提出了一个自动生成社交故事的框架SS-Bench,旨在解决儿童自闭症患者在理解社交情境和参与日常活动方面的困难,以及现有Social Stories生成方法成本高、多样性和时效性有限的问题。
  • 关键思路
    提出了一种基于约束驱动的策略StarSow,通过逐层提示大型语言模型生成社交故事,以满足Social Stories的结构清晰、描述准确、情境安全等严格要求。
  • 其它亮点
    通过构建SS-Bench基准测试,验证了所提出的自动生成Social Stories的框架的有效性和可行性。提出了质量评估标准,包括人工和GPT评估,以验证生成的故事的质量。此外,论文还介绍了一些值得深入研究的方向,如如何更好地利用语言模型的特性来生成高质量的Social Stories。
  • 相关研究
    在相关研究方面,最近的一些研究包括:1.使用深度学习生成社交故事的研究;2.使用自然语言处理技术自动生成社交故事的研究;3.社交故事的人工编写和评估研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问