当前AI代理基准测试仅评估单任务能力,而真实办公场景需同时处理数十个相互依赖的任务。为此,研究者提出多时间跨度任务环境(MHTEs)。实验表明,在多任务负载下,主流计算机操作代理完成率从16.7%骤降至8.7%。CORPGEN通过引入数字员工架构,融合分层规划、内存隔离与经验学习机制,在三个独立代理后端上任务完成率提升最高达3.5倍。其模块化、架构无关的设计使性能增益源于系统级创新,而非依赖特定基础模型,且能随底层模型升级自然受益,更贴近知识工作者多线程、强耦合的真实工作流需求。(200字)

本专栏通过快照技术转载,仅保留核心内容

内容中包含的图片若涉及版权问题,请及时与我们联系删除