- 简介大型语言模型(LLMs)正在迅速成为独立工具和当前及未来软件系统组件的普遍存在。为了使LLMs能够在2030年的高风险或安全关键系统中得到应用,它们需要经过严格的测试。软件工程(SE)研究机器学习(ML)组件和基于ML的系统的测试已经系统地探索了许多主题,例如测试输入生成和鲁棒性。我们认为,与LLM测试相关的工具、基准、研究和从业者观点的知识需要进行类似的组织。为此,我们提出了一个LLM测试主题的分类法,并对LLM测试的研究、开源工具和基准的最新方法和实践进行了初步研究,并将结果映射到这个分类法上。我们的目标是确定需要更多研究和工程努力的空白,并激发LLM从业者和SE研究社区之间更清晰的交流。
- 图表
- 解决问题如何对大型语言模型进行可靠的测试,以便将其应用于高风险或安全关键系统中?
- 关键思路提出了大型语言模型测试话题的分类法,并进行了相关研究、开源工具和基准测试的初步研究,以确定需要更多研究和工程努力的领域。
- 其它亮点论文提出了大型语言模型测试话题的分类法,介绍了目前的研究、开源工具和基准测试,并指出了需要更多研究和工程努力的领域。
- 最近的相关研究包括“Testing and Debugging Machine Learning Models: A Survey”和“DeepTest: Automated Testing of Deep-Neural-Network-driven Autonomous Cars”。
沙发等你来抢
去评论
评论
沙发等你来抢