K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts

2026年06月01日
  • 简介
    前沿大模型的评估正从基础能力(例如指令遵循与推理)转向更具组合性与智能体特性的能力,但面向韩语场景的智能体评测基准仍十分匮乏。为此,我们推出了K-BrowseComp——一个立足于韩国本土语境的网页浏览智能体评测基准,共包含400道任务题。其中,300道题组成的子集K-BrowseComp-Verified由母语为韩语的专家人工构建并逐题验证。在该子集上,当前最前沿的大语言模型(包括GPT-5.5、DeepSeek-V4-Pro与GLM-5.1)仅取得30.00%–45.67%的准确率,相较通用英文基准BrowseComp出现显著下降;而通过韩国“专有AI基础模型计划”发布的韩语大模型表现则更弱,准确率仅为0.00%–10.33%。为进一步挖掘模型能力边界,我们还构建了一个含100道题的合成子集:该子集采用高难度少样本示例,并结合针对典型失败模式的定向生成策略,充分利用了“求解网页浏览任务”与“构造网页浏览任务”之间固有的不对称性。在经过对抗性筛选后的这一合成诊断子集上,目前性能最强的模型准确率也仅有26.00%,因此我们将该子集单独发布,作为一项专门设计的压力测试。我们已将全部数据与代码开源,供研究社区公开使用。
  • 作者讲解
  • 图表
  • 解决问题
    现有前沿大语言模型的评估正从基础能力(如指令遵循、推理)转向更复杂的组合式、具身化代理能力(agentic capabilities),但针对韩语场景的具身化基准(尤其是基于真实网页浏览的代理任务)严重缺失,导致无法客观衡量韩语环境下模型的实际应用能力。
  • 关键思路
    提出首个面向韩语语境、真实世界网页交互的具身代理基准K-BrowseComp:包含400题,其中300题为人工构建+母语者验证的K-BrowseComp-Verified子集;另100题为基于失败模式分析与‘解题易、出题难’不对称性设计的对抗性合成诊断集(adversarially filtered synthetic diagnostic split),专门用于压力测试模型在复杂韩语Web环境中的鲁棒性与泛化能力。
  • 其它亮点
    • 首个开源、高质量韩语网页浏览代理基准(含数据、prompt模板、评估脚本);• 实验覆盖GPT-5.5、DeepSeek-V4-Pro、GLM-5.1等国际前沿模型及韩国国产模型(如Koala-1B、HanLlama-7B等Proprietary AI Foundation Model项目成果),揭示显著性能落差(国际模型30–45.67%,国产模型仅0–10.33%);• 合成诊断集经失败模式驱动生成与人工对抗过滤,最强模型仅达26.00%,凸显当前模型在韩语长程规划、多跳信息整合与文化敏感交互上的根本瓶颈;• 所有数据与代码已公开发布,支持可复现评估与社区共建。
  • 相关研究
    BrowseComp (2024, NeurIPS); WebArena (2023, ACL); Mind2Web (2023, EMNLP); ARES (2024, arXiv); KOALA-Bench (2024, Korean LLM Evaluation Workshop); KOR-AGENTS (2024, KAIST Tech Report)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问