报告日期:5月15日(周三)10:30-11:30
智能体正在快速发展,然而其性能评估方法仍然较为原始——大量依赖人工标注,且难以准确反映其在现实应用中的性能。因此,我们需要开发出更具可扩展性、并能真实反映智能体性能的评估工具。在这份工作里,我们展示了利用多模态语言模型(VLM)评估智能体性能的可行性及其相对传统方法的优点。基于此方法,我们进一步展示了如何利用该监督信号在训练以及推理中显著提升智能体的性能(30%~75%)报告中,我会探讨这份工作的动机,方法,结果,以及诸多未来方向。论文由 UC Berkeley和UMich的Jiayi Pan, Yichi Zhang, Nicholas Tomlin, Yifei Zhou, Sergey Levine, Alane Suhr 合作完成,可见于 https://arxiv.org/abs/2404.06474潘家怡,加州大学伯克利分校NLP Group的博士生,师从Alane Suhr;本科学位来自上海交通大学和密西根大学。他的研究兴趣包括多模态语言模型和具身智能。主页: www.jiayipan.me
扫码报名



内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢