Embodied Question Answering via Multi-LLM Systems

2024年06月16日
  • 简介
    “具身化问答”(EQA)是一个重要的问题,涉及到一个代理探索环境以回答用户查询。在现有的文献中,EQA仅在单代理场景下进行了研究,其中探索可能耗时且昂贵。在这项工作中,我们考虑了在多代理框架下进行EQA,涉及到多个基于大型语言模型(LLM)的代理独立回答有关家庭环境的查询。为了为每个查询生成一个答案,我们使用各个响应来训练一个中央答案模型(CAM),以聚合响应以获得强大的答案。使用CAM,我们观察到与集成LLM的聚合方法(如投票方案和辩论)相比,EQA的准确性提高了50%。CAM不需要任何形式的代理通信,从而减轻了相关成本。我们使用各种非线性(神经网络、随机森林、决策树、XGBoost)和线性(逻辑回归分类器、SVM)算法来削弱CAM。最后,我们通过置换特征重要性(PFI)进行特征重要性分析,量化CAM对每个独立代理和查询上下文的依赖性。
  • 图表
  • 解决问题
    研究如何在多智能体框架下解决Embodied Question Answering (EQA)问题,提高EQA的准确性和效率。
  • 关键思路
    使用多个大型语言模型(LLM)独立回答关于家庭环境的查询,并使用一个中央答案模型(CAM)来聚合这些答案,从而提高EQA的准确性。CAM不需要任何形式的代理通信,降低了相关成本。
  • 其它亮点
    实验结果表明,使用CAM相比于基于投票方案和辩论等集成LLM的聚合方法,EQA的准确性提高了50%。同时,论文还通过排列特征重要性(PFI)分析了CAM的特征重要性。
  • 相关研究
    近期相关研究包括:'EmbodiedQA: Bridging the Gap between Vision and Language Navigation'、'Embodied Question Answering in Photorealistic Environments with Point Cloud Perception'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论