ErgoChat: a Visual Query System for the Ergonomic Risk Assessment of Construction Workers

2024年12月27日
  • 简介
    在建筑行业,工人经常需要长时间进行高强度的体力劳动并持续使用工具,这导致了主要与姿势人体工程学风险相关的伤害和疾病,成为长期存在的主要健康问题。为了减轻这些风险,研究人员应用了各种技术方法来识别建筑工人面临的人体工程学风险。然而,传统的姿势风险评估(ERA)技术无法提供互动反馈。快速发展的视觉-语言模型(VLMs)能够根据图像输入生成关于人体工程学风险的文本描述或回答相关问题,但尚未受到广泛关注。本研究介绍了一个专门用于评估建筑工人姿势人体工程学风险的交互式视觉查询系统。该系统的功能包括视觉问答(VQA),可以对有关工人暴露于姿势人体工程学风险的视觉查询作出回应,以及图像字幕生成(IC),可以从图像中生成这些风险的文本描述。此外,本研究还提出了一套旨在训练和测试此类方法的数据集。系统测试表明,VQA功能的准确率为96.5%。此外,使用九个指标对IC进行评估以及来自人类专家的评估均表明,所提出的方法优于仅在通用数据集上训练的相同架构的方法。本研究为未来使用生成性人工智能(AI)技术进行互动ERA设定了新的方向。
  • 图表
  • 解决问题
    该论文试图解决建筑工人因长期从事高强度体力劳动和使用工具而面临的姿势性人体工程学风险问题。传统的人体工程学风险评估(ERA)技术无法提供交互式反馈,而快速发展的视觉-语言模型(VLMs)虽然能够根据图像输入生成描述或回答关于人体工程学风险的问题,但尚未得到广泛关注。因此,本研究旨在开发一种能够提供交互式反馈的系统来评估建筑工人面临的人体工程学风险。
  • 关键思路
    论文的关键思路是引入一个基于视觉-语言模型的交互式视觉查询系统,用于评估建筑工人的姿势性人体工程学风险。该系统具备视觉问答(VQA)和图像字幕(IC)功能,可以分别根据图像输入回答有关人体工程学风险的问题并生成描述。与仅在通用数据集上训练的方法相比,该系统通过专门设计的数据集进行训练和测试,从而显著提高了性能。这为未来利用生成式人工智能技术进行互动式人体工程学风险评估指明了新方向。
  • 其它亮点
    1. 系统的视觉问答功能实现了96.5%的准确性。 2. 使用九种指标对图像字幕功能进行了评估,并获得了人类专家的认可。 3. 提出了一套专门用于训练和测试此类方法的数据集。 4. 开源代码未提及,但研究结果表明该系统具有较高的准确性和实用性,值得进一步探索和应用。
  • 相关研究
    最近在这个领域中,其他相关研究包括: 1. "Ergonomic Risk Assessment Using Deep Learning Techniques" 2. "A Review of Wearable Sensors for Ergonomics and Safety in Construction" 3. "Development of an AI-Based System for Real-Time Posture Monitoring" 4. "Integrating Augmented Reality with Ergonomics for Worker Safety" 这些研究都致力于通过不同的技术手段提高对人体工程学风险的评估和预防能力。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论