3月14日,OpenAI官网发布GPT-4,支持图像和文本输入,效果超越ChatGPT。
newGPT-4 技术报告分析
https://event-cdn.baai.ac.cn/file/file-browser/JmNrTPm22arBiStk3Gd553s4b2xKy5Ne.pdf
GPT-4 实现了飞跃式提升:强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。OpenAI开源了Evals框架,以自动评估AI模型性能,允许用户报告模型中的缺点,以帮助其改进。GPT-4仍然有许多正在努力解决的已知局限性,例如社会偏见、幻觉和对抗性prompt。
OpenAI正在ChatGPT Plus上提供GPT-4,并为开发人员提供API以构建应用和服务。微软的New Bing已用上GPT-4。
相关报道:
纽约时报:GPT-4 令人印象深刻但仍在 10 个方面具有缺陷
官网地址:
https://openai.com/product/gpt-4
论文下载:
https://cdn.openai.com/papers/gpt-4.pdf
直播地址:
https://www.youtube.com/watch?v=outcGtbnMuQ
直播速记稿:
https://event-cdn.baai.ac.cn/file/file-browser/MhyB8XrtJbfpwiKYzGSCMJDS2kQ3mJ6y.pdf
贡献者:
https://openai.com/contributions/gpt-4
开源Evals框架:
https://github.com/openai/evals
必应运行:
更多地址
要点
- GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力:更具创造性和协作性;可以接受图像作为输入并生成说明文字、分类和分析;能够处理超过 25,000 个单词的文本,允许长文内容创建、扩展对话以及文档搜索和分析等用例。
- GPT-4的高级推理能力超越了ChatGPT。
- 在SAT等绝大多数专业测试以及相关学术基准评测中,GPT-4的分数高于ChatGPT。
- GPT-4遵循GPT、GPT-2和GPT-3的研究路径,利用更多数据和更多计算来创建越来越复杂和强大的语言模型(数据量和模型参数并未公布)。
- OpenAI花了6个月时间使GPT-4更安全、更具一致性。在内部评估中,与GPT-3.5相比,GPT-4对不允许内容做出回应的可能性降低82%,给出事实性回应的可能性高40%。
- 安全与对齐:引入了更多人类反馈数据进行训练,以改进GPT-4的行为;不断吸取现实世界使用的经验教训进行改进;GPT-4的高级推理和指令遵循能力加快的安全性研究工作。
论文
https://cdn.openai.com/papers/gpt-4.pdf
该论文的贡献是开发了一个大规模、多模态的语言模型GPT-4,可以接受图像和文本作为输入,并生成文本输出。该模型在各种专业和学术基准测试中展现了人类水平的表现,并通过模拟的律师考试用分数排名在前10%左右。同时,该论文还介绍了一种基于Transformer的模型,通过预测文档中的下一个单词进行预训练,并通过后训练对齐过程来提高其准确性和可靠性。
此外,该论文还介绍了开发基础设施和优化方法的重要性,使其能够在不同的规模下保持稳定和可靠的表现。最后,该论文还介绍了如何通过使用少于GPT-4计算能力1/1,000的模型来准确预测GPT-4的部分性能。
比较有趣的一点是报告中团队提到的职业https://openai.com/contributions/gpt-4
也许会是以后热门职业方向:
- 人工智能预训练师 Pretraining
- 数据准备师 Data & Dataset
- 训练保姆 Training run babysitting
- 情景分析师 Long context research
- 强化学习师 Reinforcement Learning & Alignment
- 算法模型安全师 Model safety & Refusal
- 现实世界用例评估师 Real world use case eval
- 数据和模型污染调查师 Contamination investigation
- 能力评估师 Capability Eval
- 新奇能力发现师 Novel capability discovery
- 安全与政策评估师 Safety and.policy eval
- 对抗测试师 Adversarial tester
以下为官网原文,机器翻译
我们创建了 GPT-4,这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。例如,它通过模拟律师考试,分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。我们花了 6 个月的时间 使用我们的对抗性测试程序和 ChatGPT 的经验教训迭代调整 GPT-4,从而在真实性、可操纵性和拒绝超出护栏方面取得了有史以来最好的结果(尽管远非完美)。
在过去的两年里,我们重建了整个深度学习堆栈,并与 Azure 一起从头开始为我们的工作负载共同设计了一台超级计算机。一年前,我们训练 GPT-3.5 作为系统的第一次“试运行”。我们发现并修复了一些错误并改进了我们的理论基础。结果,我们的 GPT-4 训练运行(至少对我们而言!)前所未有地稳定,成为我们能够提前准确预测其训练性能的第一个大型模型。随着我们继续专注于可靠的扩展,我们的目标是完善我们的方法,以帮助我们越来越多地提前预测和准备未来的能力——我们认为这对安全至关重要。
我们正在通过 ChatGPT 和 API(有候补名单)发布 GPT-4 的文本输入功能。为了准备图像输入功能以获得更广泛的可用性,我们正在与一个合作伙伴密切合作。我们还开源了OpenAI Evals,这是我们用于自动评估 AI 模型性能的框架,允许任何人报告我们模型中的缺点,以帮助指导进一步改进。
能力
在随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。为了了解这两种模型之间的区别,我们在各种基准测试中进行了测试,包括最初为人类设计的模拟考试。我们通过使用最新的公开测试(在奥林匹克竞赛和 AP 自由回答问题的情况下)或购买 2022-2023 年版本的练习考试来继续。我们没有针对这些考试进行专门训练。模型在训练期间看到了考试中的一小部分问题,但我们认为结果具有代表性——有关详细信息,请参阅我们的技术报告。
我们也在内部使用 GPT-4,对支持、销售、内容审核和编程等功能产生了巨大影响。我们还使用它来帮助人类评估 AI 输出,开始我们对齐策略的第二阶段。
视觉输入
GPT-4 可以接受文本和图像提示,这与纯文本设置并行,允许用户指定任何视觉或语言任务。具体来说,它在给定由散布的文本和图像组成的输入的情况下生成文本输出(自然语言、代码等)。在一系列领域——包括带有文本和照片、图表或屏幕截图的文档——GPT-4 展示了与纯文本输入类似的功能。此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少量镜头和思维链提示。图像输入仍然是研究图像预览,不公开。
我们通过在一套狭义的标准学术视觉基准上对其进行评估来预览 GPT-4 的性能。然而,这些数字并不能完全代表其能力范围,因为我们不断发现该模型能够处理的新的和令人兴奋的任务。我们计划很快发布进一步的分析和评估数据,并彻底调查测试时间技术的影响。
操纵性
限制
尽管功能强大,但 GPT-4 与早期的 GPT 模型具有相似的局限性。最重要的是,它仍然不完全可靠(它“幻觉”事实并出现推理错误)。在使用语言模型输出时应格外小心,特别是在高风险上下文中,使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文的基础或完全避免高风险使用).虽然仍然是一个真正的问题,但 GPT-4 相对于以前的模型(它们本身在每次迭代中都在改进)显着减少了幻觉。在我们的内部对抗性真实性评估中,GPT-4 的得分比我们最新的 GPT-3.5 高 40%:
我们在 TruthfulQA 等外部基准测试方面取得了进展,它测试了模型将事实与对抗性选择的一组错误陈述分开的能力。这些问题与事实不正确的答案配对,这些答案在统计上很有吸引力。
GPT-4 基本模型在此任务上仅比 GPT-3.5 略好;然而,在RLHF后训练(应用与GPT-3.5相同的过程)之后,存在很大差距。检查下面的一些例子,GPT-4 拒绝选择俗语(你不能教老狗新把戏),但它仍然会遗漏细微的细节(猫王不是演员的儿子)。
该模型的输出可能存在各种偏差——我们在这些方面取得了进展,但还有更多工作要做。根据我们最近的博客文章,我们的目标是让我们构建的 AI 系统具有合理的默认行为,以反映广泛的用户价值观,允许这些系统在广泛的范围内进行定制,并就这些范围应该是什么获得公众意见。GPT-4 普遍缺乏对绝大部分数据中断后(2021 年 9 月)发生的事件的了解,也没有从经验中吸取教训。它有时会犯一些简单的推理错误,这些错误似乎与跨多个领域的能力不相称,或者在接受用户明显的虚假陈述时过于轻信。有时它会像人类一样在难题上失败,例如在它生成的代码中引入安全漏洞。GPT-4 也可能自信地在其预测中犯错,在可能出错时不注意仔细检查工作。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过我们目前的训练后过程,校准减少了。
风险与缓解措施
总的来说,我们的模型级干预增加了引发不良行为的难度,但这样做仍然是可能的。此外,仍然存在生成违反我们使用指南的内容的“越狱” 。随着人工智能系统“每个代币的风险”增加,在这些干预中实现极高的可靠性将变得至关重要;目前,重要的是用部署时安全技术(如监控滥用)来补充这些限制。GPT-4 和后续模型有可能以有益和有害的方式对社会产生重大影响。我们正在与外部研究人员合作,以改进我们理解和评估潜在影响的方式,以及对未来系统中可能出现的危险功能进行评估。我们很快将分享更多关于 GPT-4 和其他人工智能系统的潜在社会和经济影响的想法。
训练过程
可预测的扩展
GPT-4 项目的一大重点是构建可预测扩展的深度学习堆栈。主要原因是,对于像 GPT-4 这样的非常大的训练运行,进行广泛的特定于模型的调整是不可行的。我们开发的基础设施和优化在多个尺度上具有非常可预测的行为。为了验证这种可扩展性,我们通过从使用相同方法训练但使用 10,000 倍更少计算的模型进行推断,准确预测了 GPT-4 在我们内部代码库(不是训练集的一部分)上的最终损失:
现在我们可以准确地预测我们在训练期间优化的指标(损失),我们开始开发方法来预测更多可解释的指标。例如,我们成功预测了HumanEval数据集子集的通过率,从计算量减少 1,000 倍的模型推断:
有些能力仍然难以预测。例如,Inverse Scaling Prize 是一项竞赛,目的是寻找一个随着模型计算量的增加而变得更糟的指标,而后见之明的忽视是赢家之一。就像最近的另一个结果一样, GPT-4 扭转了趋势:
OpenAI 评估
ChatGPT Plus
ChatGPT Plus 订阅者将在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。我们将根据实践中的需求和系统性能调整确切的使用上限,但我们预计会受到严重的容量限制(尽管我们将在接下来的几个月内进行扩展和优化)。根据我们看到的流量模式,我们可能会为更高容量的 GPT-4 使用引入新的订阅级别;我们也希望在某个时候提供一些免费的 GPT-4 查询,这样那些没有订阅的人也可以尝试一下。应用程序接口
结论
附录
评论
沙发等你来抢