OpenAI发布GPT-4,效果惊艳。

GPT-4是什么?

GPT-4是一个大规模的多模态模型,其最大亮点:不仅可以将文本转化成相应的图像、音乐甚至是视频。GPT-4 实现了以下几个方面的飞跃式提升:强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。

GPT-4的主要能力有哪些?

首先,它的编程能力有所提高,只要把报的错告诉它,它就会自动改正。注意到这里报的错并不是GPT4自己写错了,而是用的库更新了API造成的问题。GPT4能够根据有限的错误内容自动使用新的API,即使它完全没有学过相关资料。

支持图片理解。GPT-4支持图片输入了。但是它做到什么程度了呢?(1)你可以直接把它当作OCR的替代(2)解释图片笑话自然不在话下(3)你可以画一个潦草的网页设计,然后让GPT4根据这个图片,生成出真正的网页,并且还满足你附加的要求。

GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力:更具创造性和协作性;可以接受图像作为输入并生成说明文字、分类和分析;能够处理超过 25,000 个单词的文本,允许长文内容创建、扩展对话以及文档搜索和分析等用例。

对复杂任务更好的理解。GPT-4除了多模态以外,GPT-4的理解能力和创造力远超3.5。GPT-4的回答逻辑性和一致性要强的多,是真正地在“分步解题”。这解释了为何GPT-4在各类数学和其他理科的测试中成绩远超GPT-3。

GPT4可以为你完成复杂的报税,并附有完整的计算过程和条款解释。这对GPT-3.5来说是没有可能的,因为(1)繁琐的16页税务相关文件超出了GPT-3的4096 tokens的限制,也就是太长了(2)就凭GPT-3.5的数学和逻辑推理水平,几乎没有可能正确完成如此复杂的计算。

更强的知识储备。在SAT等绝大多数专业测试以及相关学术基准评测中,GPT-4的分数高于ChatGPT。GPT-4 在各种专业测试和学术基准上的表现与人类水平相当。例如,它通过了模拟律师考试,且分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。

GPT-4带来的可能性

自然语言处理:GPT-4可能会进一步提高自然语言处理的准确性,使得机器能够更好的理解和生成自然语言。这有助于改进智能客服、自动翻译、智能写作等应用。

人工智能:GPT-4可能会成为更好的人工智能算法,能够更好地处理语言、图像和视频数据。这将有助于改进语音识别、计算机视觉和自动驾驶等。

教育:GPT-4可能会成为更好的教育工具,能够更好地辅助学生学习和理解知识。这将有助于改进在线教育、自适应教育和智能教育等应用。

医疗保健:GPT-4可能有助于改进医疗保健领域的自然语言处理和医学诊断。他可能会成为更好的医学助手,能够更好地帮助医生进行诊断和治疗。

营销和广告:GPT-4可能会成为更好的营销和工具广告,能够更好地生成精准的广告和营销内容,这将有助于改进广告投放和营销策略。

安全性问题

OpenAI花了6个月时间使GPT-4更安全、更具一致性。在内部评估中,与GPT-3.5相比,GPT-4对不允许内容做出回应的可能性降低82%,给出事实性回应的可能性高40%。

安全与对齐:引入了更多人类反馈数据进行训练,以改进GPT-4的行为;不断吸取现实世界使用的经验教训进行改进;GPT-4的高级推理和指令遵循能力加快的安全性研究工作。

总的来说,GPT-4 相对于以前的模型(经过多次迭代和改进)已经显著减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%。

  局限性

OpenAI表示,GPT-4仍然有许多正在努力解决的已知局限性,例如社会偏见、幻觉和对抗性prompt。目前,OpenAI正在ChatGPT Plus上提供GPT-4,并为开发人员提供API以构建应用和服务。值得一提的是,微软的New Bing早就用上了GPT-4。

预防风险

GPT-4 在 RLHF 训练中加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害的输出。奖励是由 GPT-4 的零样本分类器提供的,它判断安全边界和安全相关 prompt 的完成方式。为了防止模型拒绝有效的请求,团队从各种来源(例如,标注的生产数据、人类的红队、模型生成的 prompt)收集多样化的数据集,在允许和不允许的类别上应用安全奖励信号(有正值或负值)。

这些措施大大在许多方面改善了 GPT-4 的安全性能。与 GPT-3.5 相比,模型对不允许内容的请求的响应倾向降低了 82%,而 GPT-4 对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了 29%。