本文来自外媒techcrunch

作者:Kyle Wiggers

采访人:OpenAI 董事长、CTO Greg Brockman

原文标题:Interview with OpenAI’s Greg Brockman: GPT-4 isn’t perfect, but neither are you

OpenAI发布多模态GPT-4:支持图像和文本输入,效果超越ChatGPT(信息汇总)

 

OpenAI 昨天发布了GPT-4  ,这是备受期待的文本生成 AI 模型,这是一项令人好奇的工作。

GPT-4在关键方面对其前身GPT-3进行了改进,例如提供更符合事实的陈述,并允许开发人员更轻松地规定其风格和行为。它也是多模式的,因为它可以理解图像,允许它添加标题甚至详细解释照片的内容。

但是 GPT-4 有严重的缺点。与 GPT-3 一样,该模型“幻觉”了事实并犯了基本的推理错误。在 OpenAI自己的博客上的一个示例中,GPT-4 将猫王描述为“演员之子”。(他的父母都不是演员。)

为了更好地了解 GPT-4 的开发周期及其功能及其局限性,TechCrunch 在周二通过视频通话与 OpenAI 的联合创始人之一兼总裁 Greg Brockman 进行了交谈。

当被要求比较 GPT-4 和 GPT-3 时,Brockman 只说了一个词:不同。

“这只是不同,”他告诉 TechCrunch。“[该模型] 仍然存在很多问题和错误……但你确实可以看到微积分或法律等技能的飞跃,从某些领域的非常糟糕到相对于人类来说实际上相当好。 ”

测试结果支持他的情况。在 AP 微积分 BC 考试中,GPT-4 获得 4 分(满分 5 分),而 GPT-3 获得 1 分。(GPT-3.5 是GPT -3 和 GPT-4 之间的中间模型,也获得 4 分。)模拟律师考试,GPT-4以前10%的考生成绩通过;GPT-3.5 的得分徘徊在倒数 10% 左右。

换档,GPT-4 更有趣的方面之一是上述多模态。与 GPT-3 和 GPT-3.5 只能接受文本提示(例如“写一篇关于长颈鹿的文章”)不同,GPT-4 可以接受图像和文本提示来执行某些操作(例如长颈鹿的图像在塞伦盖蒂提示“这里显示了多少只长颈鹿?”)。

这是因为 GPT-4 接受了图像文本数据的训练,而其前身仅接受了文本训练。OpenAI 表示,训练数据来自“各种许可、创建和公开可用的数据源,其中可能包括公开可用的个人信息”,但当我询问具体细节时,布罗克曼表示反对。(训练数据之前曾让 OpenAI 陷入法律纠纷。)

GPT-4 的图像理解能力令人印象深刻。例如,输入提示“这张图片有什么好笑的?一个面板一个面板地描述它”加上一张三面板图像,显示一条假 VGA 电缆被插入 iPhone,GPT-4 给出了每个图像面板的细分并正确解释了这个笑话(“这个图像中的幽默来自于荒谬的将过时的大型 VGA 连接器插入小型现代智能手机充电端口”)。

目前只有一个发布合作伙伴可以使用 GPT-4 的图像分析功能——一款名为Be My Eyes的视障人士辅助应用程序。布罗克曼表示,随着 OpenAI 评估风险和收益,无论何时进行更广泛的推广,都将是“缓慢而有意的”。

“存在面部识别和如何处理我们需要解决和解决的人物图像等政策问题,”布罗克曼说。“我们需要弄清楚危险区域在哪里——红线在哪里——然后随着时间的推移澄清这一点。”

OpenAI 围绕其文本到图像系统 DALL-E 2 处理了类似的道德困境。在最初禁用该功能后,OpenAI 允许客户上传人脸以使用人工智能图像生成系统对其进行编辑。当时,OpenAI声称其安全系统的升级使面部编辑功能成为可能,因为“最大限度地减少了深度造假造成的潜在危害”,以及试图创造性、政治和暴力内容。

另一个常年是防止 GPT-4 以可能造成伤害的意外方式使用——心理、金钱或其他方面。该模型发布数小时后,以色列网络安全初创公司 Adversa AI 发布了一篇博文,展示了绕过 OpenAI 的内容过滤器并让 GPT-4 生成网络钓鱼电子邮件、对同性恋者的攻击性描述和其他令人反感的文本的方法。

这在语言模型领域并不是一个新现象。Meta 的 BlenderBot 和 OpenAI 的 ChatGPT 也被提示说出非常冒犯的话,甚至透露有关其内部运作的敏感细节。但许多人曾希望,包括这位记者在内,GPT-4 可能会在节制方面带来重大改进。

当被问及 GPT-4 的稳健性时,布罗克曼强调该模型已经接受了六个月的安全训练,并且在内部测试中,它响应 OpenAI 使用政策不允许的内容请求的可能性降低了 82%,可能性提高了 40%比 GPT-3.5 产生“事实”响应。

“我们花了很多时间试图了解 GPT-4 的能力,”布罗克曼说。“在世界上传播它是我们学习的方式。我们不断进行更新,包括一系列改进,以便该模型更具可扩展性,以适应您希望它处于的任何个性或模式。”

坦率地说,早期的现实世界结果并不那么有希望。除了 Adversa AI 测试之外,微软的 GPT-4 聊天机器人Bing Chat已被证明极易越狱。使用精心定制的输入,用户已经能够让机器人表达爱意、威胁伤害、捍卫大屠杀和发明阴谋论。

布罗克曼并不否认 GPT-4 在这里存在不足。但他强调了该模型的新的缓解可控性工具,包括称为“系统”消息的 API 级功能。系统消息本质上是为 GPT-4 的交互设定基调和边界的指令。例如,一条系统消息可能是这样的:“你是一位总是以苏格拉底式方式回应的导师。你永远不会给学生答案,但总是试着问正确的问题,帮助他们学会独立思考。”

这个想法是系统消息充当护栏,以防止 GPT-4 偏离路线。

“真正弄清楚 GPT-4 的基调、风格和实质一直是我们的重点,”布罗克曼说。“我认为我们开始更多地了解如何进行工程,了解如何进行可重复的过程,从而获得对人们真正有用的可预测结果。”

Brockman 还指出Evals是 OpenAI 用于评估其 AI 模型性能的新开源软件框架,这是 OpenAI 致力于“稳健”其模型的标志。Evals 允许用户开发和运行基准测试来评估 GPT-4 等模型,同时检查它们的性能——一种众包模型测试方法。

“借助 Evals,我们可以以系统化的形式查看用户关心的 [用例],我们可以根据这些形式进行测试,”Brockman 说。“我们[开源]的部分原因是因为我们不再每三个月发布一个新模型——无论以前是什么——而是不断改进。你不做你不测量的东西,对吧?当我们制作 [模型] 的新版本时,我们至少可以知道这些变化是什么。”

我问 Brockman,OpenAI 是否会补偿人们使用 Evals 测试其模型。他不会承诺这一点,但他确实注意到——在有限的时间内——OpenAI 授予选定的 Evals 用户早期访问 GPT-4 API 的权限。

布罗克曼和我的谈话还谈到了 GPT-4 的上下文窗口,它指的是模型在生成额外文本之前可以考虑的文本。OpenAI 正在测试GPT-4的一个版本,它可以“记住”大约 50 页的内容,或者是普通 GPT-4 可以在其“记忆”中保存的内容的五倍和 GPT-3 的八倍。

布罗克曼认为,扩展的上下文窗口会带来新的、以前未开发的应用程序,尤其是在企业中。他设想为一家公司构建的 AI 聊天机器人利用来自不同来源(包括跨部门员工)的上下文和知识,以非常知情但对话的方式回答问题。

这不是一个新概念。但 Brockman 认为,GPT-4 的答案将比当今聊天机器人和搜索引擎的答案有用得多。

“以前,模型不知道你是谁,你对什么感兴趣等等,”布罗克曼说。“拥有那种历史 [with the larger context window] 肯定会让它更有能力......它会增强人们的能力。”

更多阅读:

OpenAI 董事长、CTO Greg Brockman创业经历,附其个人投资版图

Greg Brockman(OpenAI CTO):是时候做一名机器学习工程师了