The Promises and Pitfalls of Using Language Models to Measure Instruction Quality in Education

2024年04月03日
  • 简介
    评估教学质量是教育系统中任何改进努力的基本组成部分。然而,传统的手动评估方法昂贵、主观,并且严重依赖于观察者的专业知识和个人因素,使教师无法获得及时和频繁的反馈。与以往主要关注低推理单一教学实践的研究不同,本文首次利用自然语言处理(NLP)技术评估两种不同教育环境下的多个高推理教学实践:面对面的K-12课堂和为预服务教师设计的模拟表现任务。这也是第一项应用NLP来衡量被广泛认为对特殊需求学生特别有效的教学实践的研究。我们面临着NLP教学分析中的两个挑战,包括嘈杂和长的输入数据以及人类评分的高度倾斜分布。我们的结果表明,预训练语言模型(PLMs)对于更离散、需要较低推理的变量表现出与人类评分者一致的表现水平,但随着更复杂的教学实践,它们的效果会减弱。有趣的是,仅使用教师的话语作为输入,可以为以学生为中心的变量提供强大的结果,缓解了在面对面教学环境中收集和转录高质量学生语音数据的困难。我们的研究结果突显了当前NLP技术在教育领域中的潜力和局限性,为进一步探索开辟了新的途径。
  • 图表
  • 解决问题
    使用自然语言处理技术评估高推论教学实践的有效性,解决传统手动评估的昂贵、主观性和依赖性问题,同时提供及时反馈。此外,还试图解决如何评估针对特殊需求学生的教学实践的问题。
  • 关键思路
    使用预训练语言模型(PLMs)评估教学实践的有效性,结合教师和学生的语言数据,解决数据噪声和分布不均衡的问题。
  • 其它亮点
    实验结果表明,PLMs对于需要较低推论的离散变量的表现与人类评估者的一致性相当,但对于更复杂的教学实践则效果下降。同时,使用教师的话语作为输入,可以有效评估以学生为中心的变量,解决了在现实教学环境中收集和转录学生语音数据的难题。
  • 相关研究
    在这个领域中,最近的相关研究包括使用机器学习技术评估教学实践的有效性,如Liu等人的“Automated Assessment of Teaching Effectiveness Using Supervised Machine Learning”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论