导语

本文翻译自 https://princeton-nlp.github.io/language-agent-impact/
虽然2022年是让像ChatGPT这样的语言模型引起公众关注的一年,但2023年见证了语言智能体(agent,也称主体)的崛起。《ReAct》和《Toolformers》等论文以及《LangChain》和《ChatGPT Plugins》等框架展示了语言模型可以与网页、软件、工具和API相连接,通过计算工具和定制的最新信息源增强它们的功能。这种能够行动并影响世界的能力使得语言模型可以应用于更广泛的领域,超越传统的语言处理。例如,通过导航网站获取信息,控制像Excel这样的软件,或者进行带有执行反馈的交互式编程。
本文所称“语言智能体”,即以大语言模型技术为基础的智能agent
将这些机器仍然称为“语言模型”(其优化目标是预测下一个token)会显著低估它们的能力,因为它们正在演变成能够使用语言作为主要媒介解决通用数字任务的自主智能体——简而言之,在数字世界中的“语言智能体”。
尽管关于语言智能体的演示和论文看起来令人兴奋,但这对于人工智能和社会的未来意味着什么?本博客文章旨在提供我们对这个问题的见解,并引发围绕语言智能体开发中固有机会和风险的讨论。对于这些智能体的技术概述,请查阅Lilian Weng所写的出色博客文章。此外,关于语言智能体还有更多论文、博客文章、基准测试和其他资源,请访问我们的资料库。
https://github.com/ysymyth/awesome-language-agents
数字世界中的语言智能体:
通用人工智能的新前景
数字世界中的语言智能体:
通用人工智能的新前景
人工智能长期以来的目标是创建能够智能地与环境互动以实现特定目标的自主智能体。强化学习(RL)是一个解决这些挑战的强大框架,有着如AlphaGo和OpenAI Five等著名的成功案例。然而,强化学习始终困扰于缺乏归纳偏见和环境限制的问题。人类视觉-运动或物理先验的注入一直具有挑战性,这意味着强化学习模型常需要数百万次交互从零开始训练。因此,在物理、真实世界环境中学习一直充满挑战,毕竟机器人交互速度慢且收集成本高昂。这也解释了为何主要的强化学习成功案例发生在游戏中——那里的模拟快速、廉价,但同时也存在封闭、有限领域的问题,难以转移到复杂真实世界智能任务之上。
虽然物理环境和游戏世界各有其局限,但数字世界(以语言为主要载体)提供了独特的可扩展环境和学习优势。例如,WebShop是一个拥有数百万种产品的购物网站环境,其中智能体需要阅读网页、输入查询并点击按钮来进行购物,就如同人类一样。这样的数字任务挑战了智力的多个方面,包括视觉理解、阅读理解和决策制定,并且可以轻松扩大规模。这也为引导智能体使用经过预训练的先验知识进行微调提供了机会——大型语言模型的提示可以直接应用于WebShop或任何ChatGPT插件任务,这在传统的强化学习领域是难以实现的。随着更多API被整合到环境中,将会出现一个极其多样化、开放性极高的数字工具和任务生态系统,催生出更通用、更有能力的自主语言智能体。这将为通向通用人工智能之路开辟新方向。
自动化社会的巨大潜力
自动化社会的巨大潜力
虽然物理环境和游戏世界各有其局限,但数字世界(以语言为主要载体)提供了独特的可扩展环境和学习优势。例如,WebShop是一个拥有数百万种产品的购物网站环境,其中智能体需要阅读网页、输入查询并点击按钮来进行购物,就如同人类一样。这样的数字任务挑战了智力的多个方面,包括视觉理解、阅读理解和决策制定,并且可以轻松扩大规模。这也为引导智能体使用经过预训练的先验知识进行微调提供了机会——大型语言模型的提示可以直接应用于WebShop或任何ChatGPT插件任务,这在传统的强化学习领域是难以实现的。随着更多API被整合到环境中,将会出现一个极其多样化、开放性极高的数字工具和任务生态系统,催生出更通用、更有能力的自主语言智能体。这将为通向通用人工智能之路开辟新方向。
一台能自主行动的机器在各个领域都有巨大的潜力来减轻人类的劳动负担。从机器人吸尘器到自动驾驶汽车,这些机器通常被部署在物理环境中,配备任务专用算法和应用范围较窄。而另一方面,像ChatGPT插件和Microsoft 365 Copilot这样的语言智能体则提供了通用解决方案,用于自动化广泛的数字任务,尤其在当前大部分人类生活和工作都在数字化环境中进行的时代,这一点尤为重要。
在涉及95人的研究中,我们可以瞥见即将到来的革命——Github Copilot将平均编码时间缩短了50%以上。然而,Github Copilot只是初步提供建议性操作——一个更加自主、能够反复写代码、运行并利用自动环境反馈(如错误信息)调试代码的智能体正在崭露头角。
设计师、会计师、律师以及任何与数字工具和数据打交道的职业都可能产生类似情况。更进一步说,考虑到通过物联网连接物理世界与数字世界,语言智能体可以与物理环境进行互动,远超过Alexa简单的功能,如“开灯”。例如,借助云机器人实验室服务,语言智能体可能参与到繁琐的决策循环中,用于自动药物发现:读取数据、分析洞察、设定下一次实验参数、报告潜在结果等等。
语言智能体的工作自动化机会及其能力的阶梯。
面对无穷无尽的可能性,我们应如何进行分类呢?这似乎并没有唯一的答案,正如人类工作可以从多个维度进行分类或组织一样(薪资水平、工作环境、知识水平、通用与专业等)。在此,我们想提出一个基于智能体能力的三步渐进式阶梯。
• 第一步:增强繁琐数字劳动的鲁棒性(robustness):像与网页和软件交互来填写各种表格、重复的Excel操作或客户支持任务,或者修复代码错误等任务,都涉及到多轮信息查找和试错。这些数字活动(除了编码外)只需要几小时的培训就能让新手上路,然而对人类来说却是重复且枯燥的,同时也可能因疲劳造成错误。同样地,自动化这些工作似乎并没有根本性障碍。向GPT-4提供几个示例就可以在许多此类简单任务上达到合理的表现。然而,要达到人类级别的可靠性和安全性仍然是一个挑战(见下文)。一旦实现这一点,预计这些工作中相当部分将会被自动化,可能标志着由语言智能体驱动的自动化浪潮的初次兴起。
Coq机器证明助手 https://coq.inria.fr/
平衡进步与安全
平衡进步与安全

鲁棒性、恶意使用、工作不安全和存在风险等问题。尽管历史对前三个问题有所启示,但存在风险却不太被理解且更加未知。
如何应对这些风险
如何应对这些风险

解决语言智能体(以及人工智能总体上)的安全问题需要开发人员、研究人员、教育工作者、政策制定者甚至人工智能系统等多方合作和多层次努力。
Constitutional AI https://arxiv.org/abs/2212.08073
2. 通过监管防止恶意使用:对大语言模型及其应用的负责所有权、控制和监督至关重要。除了对鲁棒性和保护的技术解决方案,还需要制定法律、规定和政策来管理它们的部署。例如,OpenAI提出了一种针对巨大模型的许可系统,这个想法可能很快在中国等国家得到实施。此外,可以建立严格的数据权限协议和规定,以防止滥用和未经授权获取敏感信息。同时,也需要考虑潜在的犯罪行为,并据此设立惩罚措施,借鉴加密货币犯罪及其法律后果的经验。
OpenAI许可系统 https://www.bloomberg.com/news/articles/2023-07-20/internal-policy-memo-shows-how-openai-is-willing-to-be-regulated
3. 就业影响与教育政策需求:面对(可能出现的)就业危机,实施全面教育和政策举措至关重要。通过装备个人适应变化环境所需的技能和知识,我们可以推动语言智能体顺利融入各行各业。这可以通过教育项目、职业培训和再技能培养计划实现,以备劳动力迎接技术驱动未来所需求。
4. 通过理解和研究管理存在性风险:在采取进一步行动之前,深化对语言智能体及其影响的理解至关重要。这涉及到对这些模型的运作机制、限制和潜在风险的深入理解。此外,建立可扩展的监督机制以确保负责任的部署并预防潜在滥用也极为重要。一种方法是利用语言智能体自身来监控和评估其他语言智能体的行为,从而主动发现并减轻任何有害后果。推动在语言智能体领域的进一步研究将有助于我们更全面地了解它们的安全影响,并协助社会发展出有效的保障措施。
最后的思考
最后的思考
“后ChatGPT”读书会
AGI读书会启动
为了深入探讨 AGI 相关话题,集智俱乐部联合集萃深度感知技术研究所所长岳玉涛、麻省理工学院博士沈马成、天普大学博士生徐博文,共同发起 AGI 读书会,涵盖主题包括:智能的定义与度量、智能的原理、大语言模型与信息世界的智能、感知与具身智能、多视角下的人工智能、对齐技术与AGI安全性、AGI时代的未来社会。读书会从2023年9月21日开始,每周四晚上 19:00-21:00,预计持续7-10周。欢迎感兴趣的朋友报名参与!
详情请见:
推荐阅读
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢