K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts

向作者提问

NEW

简介

前沿大模型的评估正从基础能力（例如指令遵循与推理）转向更具组合性与智能体特性的能力，但面向韩语场景的智能体评测基准仍十分匮乏。为此，我们推出了K-BrowseComp——一个立足于韩国本土语境的网页浏览智能体评测基准，共包含400道任务题。其中，300道题组成的子集K-BrowseComp-Verified由母语为韩语的专家人工构建并逐题验证。在该子集上，当前最前沿的大语言模型（包括GPT-5.5、DeepSeek-V4-Pro与GLM-5.1）仅取得30.00%–45.67%的准确率，相较通用英文基准BrowseComp出现显著下降；而通过韩国“专有AI基础模型计划”发布的韩语大模型表现则更弱，准确率仅为0.00%–10.33%。为进一步挖掘模型能力边界，我们还构建了一个含100道题的合成子集：该子集采用高难度少样本示例，并结合针对典型失败模式的定向生成策略，充分利用了“求解网页浏览任务”与“构造网页浏览任务”之间固有的不对称性。在经过对抗性筛选后的这一合成诊断子集上，目前性能最强的模型准确率也仅有26.00%，因此我们将该子集单独发布，作为一项专门设计的压力测试。我们已将全部数据与代码开源，供研究社区公开使用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有前沿大语言模型的评估正从基础能力（如指令遵循、推理）转向更复杂的组合式、具身化代理能力（agentic capabilities），但针对韩语场景的具身化基准（尤其是基于真实网页浏览的代理任务）严重缺失，导致无法客观衡量韩语环境下模型的实际应用能力。
关键思路

提出首个面向韩语语境、真实世界网页交互的具身代理基准K-BrowseComp：包含400题，其中300题为人工构建+母语者验证的K-BrowseComp-Verified子集；另100题为基于失败模式分析与‘解题易、出题难’不对称性设计的对抗性合成诊断集（adversarially filtered synthetic diagnostic split），专门用于压力测试模型在复杂韩语Web环境中的鲁棒性与泛化能力。
其它亮点

• 首个开源、高质量韩语网页浏览代理基准（含数据、prompt模板、评估脚本）；• 实验覆盖GPT-5.5、DeepSeek-V4-Pro、GLM-5.1等国际前沿模型及韩国国产模型（如Koala-1B、HanLlama-7B等Proprietary AI Foundation Model项目成果），揭示显著性能落差（国际模型30–45.67%，国产模型仅0–10.33%）；• 合成诊断集经失败模式驱动生成与人工对抗过滤，最强模型仅达26.00%，凸显当前模型在韩语长程规划、多跳信息整合与文化敏感交互上的根本瓶颈；• 所有数据与代码已公开发布，支持可复现评估与社区共建。
相关研究

BrowseComp (2024, NeurIPS); WebArena (2023, ACL); Mind2Web (2023, EMNLP); ARES (2024, arXiv); KOALA-Bench (2024, Korean LLM Evaluation Workshop); KOR-AGENTS (2024, KAIST Tech Report)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问