构建能够无缝交互复杂动态数字环境的通用人工智能 Agent,已成为实现通用人工智能(AGI)的关键研究路径。电子游戏凭借其多样的任务目标、复杂的交互逻辑和丰富的视觉信息,为这类代理的训练和评估提供了理想的平台。尽管取得了显著进展,现有方法在创建真正可扩展且具有广泛泛化能力的代理方面仍面临重大挑战。
基于现实挑战,字节跳动 Seed 团队提出了了一种用于预训练通用游戏 Agent 的新框架 Game-TARS ,其核心贡献在于范式上的根本性转变:不再依赖特定应用的高级动作指令,而是直接定义一个与低级计算机输入设备(如键盘和鼠标)紧密关联的可扩展、统一动作空间。这种原生人机交互范式确保智能体可以在任何图形用户界面(GUI)环境中运行,为大规模跨领域预训练奠定了基础。
论文链接:https://go.hyper.ai/ewnBg
最新 AI 论文:https://go.hyper.ai/hzChC
为了让更多用户了解学术界在人工智能领域的最新动态,HyperAI超神经官网(hyper.ai)现已上线「最新论文」板块,每天都会更新 AI 前沿研究论文。以下是我们为大家推荐的 5 篇热门 AI 论文,一起来速览本周 AI 前沿成果吧 ⬇️
本周论文推荐
1
CoCa: Contrastive Captioners are
Image-Text Foundation Models
本文介绍了对比式描述生成器(Contrastive Captioner, CoCa),这是一种极简设计,旨在通过联合使用对比损失和描述生成损失来预训练图像-文本编码器-解码器基础模型,从而整合了像 CLIP 这样的对比方法和像 SimVLM 这样的生成方法的能力。实证结果表明,CoCa 在广泛的下游任务中实现了最先进的性能,无论是零样本迁移还是最小的任务特定适应。
论文链接:https://go.hyper.ai/QpGYp

CoCa 架构和训练目标的详细说明
2
Game-TARS: Pretrained Foundation
Models for Scalable Generalist Multimodal Game Agents
本文提出 Game-TARS,这是一种基于统一且可扩展的动作空间的通用游戏 Agent,其动作输入与人类对原生键盘鼠标操作的对齐方式保持一致。与依赖 API 或 GUI 的方法不同,该范式支持在异构领域(包括操作系统、网页应用及仿真游戏)中进行大规模持续预训练。
论文链接:https://go.hyper.ai/ewnBg

框架概述图
3
Kimi Linear: An Expressive,
Efficient Attention Architecture
本文提出一种混合型线性注意力架构 Kimi Linear,首次在多种场景下(包括短上下文、长上下文以及强化学习扩展范式)的公平对比中,超越了全连接注意力机制的表现。其核心为Kimi Delta注意力(KDA),一种具有高表达能力的线性注意力模块,通过在门控 DeltaNet 基础上引入更细粒度的门控机制,有效提升了对有限状态 RNN 记忆的利用效率。
论文链接:https://go.hyper.ai/HzStR

Kimi Linear 架构图
4
Continuous Autoregressive
Language Models
本文提出了连续自回归语言模型(Continuous Autoregressive Language Models, CALM),实现了从离散的下一个标记预测到连续的下一个向量预测的范式转变。实验结果表明,CALM 显著优化了性能与计算成本之间的权衡,在远低于传统离散基线模型的计算开销下,实现了相当甚至更优的性能。
论文链接:https://go.hyper.ai/Jm7Yh

CALM 架构图
5
Context Engineering 2.0:
The Context of Context Engineering
本文旨在定位语境工程的学术坐标,提供系统性的定义,梳理其历史与概念图景,并探讨实践中的关键设计考量,为语境工程构建一个概念基础,并勾勒其广阔的发展前景。本文可视为推动人工智能系统中系统化语境工程的更广泛学术共同体努力的起点。
论文链接:https://go.hyper.ai/m9Vi7

上下文工程进化过程
以上就是本周论文推荐的全部内容,更多 AI 前沿研究论文,详见 hyper.ai 官网「最新论文」板块。
同时也欢迎研究团队向我们投稿高质量成果及论文,有意向者可添加神经星星微信(微信号:Hyperai01)。
下周再见!
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢