-
反映了 Web 上多样化和与生活实际相关的使用案例。 -
提供具有真实世界网站的具有挑战性但又现实的环境。 -
测试在不同任务和环境中的泛化能力。
现有的 Web 智能体数据集要么使用模拟网站,要么只涵盖了有限的网站和任务,因此不适用于通用的 Web 智能体。和之前的数据集相比,Mind2Web 在以下几个方面独树一帜:
-
覆盖更多领域、网站和任务:包含来自31个不同领域的任务,覆盖了更广泛的主题和领域,使得智能体能够处理更多种类的任务。 -
真实世界网站:提供了真实世界的网站作为任务环境,这些网站反映了实际的在线体验,使得智能体可以在真实的网络环境中进行训练和测试。 -
广泛的用户互动模式:使得智能体能够适应不同的用户行为和操作方式,从而更好地应对各种任务要求。
咱们一起来看看这个数据集及相关任务的介绍吧~
论文题目:
Mind2Web: Towards a Generalist Agent for the Web
论文链接:
https://arxiv.org/abs/2306.06070
代码地址:
https://github.com/OSU-NLP-Group/Mind2Web
Demo 地址:
https://osu-nlp-group.github.io/Mind2Web/
论文速览
任务与领域
作者使用 SimilarWeb 的排名作为参考来收集这些网站,平衡了任务和网站的分布,以更好地测试不同级别的泛化能力,具体任务如下所示:
-
跨任务泛化:在相同环境中跨任务的泛化,例如从图 (a) 到 (c )。 -
跨网站泛化:在相同领域下跨网站的泛化,例如从图 (a) 到 (d)。 -
跨领域泛化:在不同任务和环境中的泛化,例如从图 (e) 到 (i)。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢