OpenAI联合创始人谈公司过去对公开分享研究的做法:我们错了
OpenAI发布多模态GPT-4:支持图像和文本输入,效果超越ChatGPT(信息汇总)
昨天,OpenAI宣布了其期待已久的下一代人工智能语言模型GPT-4。该系统的能力仍在评估中,但随着研究人员和专家对其附带材料的仔细研究,许多人对一个特别的特征表示失望:尽管其母公司的名字,GPT-4并不是一个开放的AI模型。
OpenAI已经分享了GPT-4的大量基准和测试结果,以及一些有趣的演示,但基本上没有提供用于训练该系统的数据、其能源成本或用于创建该系统的具体硬件或方法的信息。
人工智能研究应该是开放的还是封闭的?专家不同意
人工智能界的许多人批评了这一决定,指出这破坏了该公司作为研究组织的创始精神,并使其他人更难复制其工作。也许更重要的是,有人说,这也使人们很难制定防范GPT-4等人工智能系统构成的威胁的措施,因为这些投诉是在人工智能世界日益紧张和快速进步之际提出的。
Nomic AI信息设计副总裁Ben Schmidt在推特上写道:
“我认为我们可以称之为关闭‘开放’人工智能:这篇98页的论文介绍了GPT-4,并自豪地宣称,他们对训练集的内容“一无所知”。”。
在这里,施密特指的是GPT-4技术报告中的一节,内容如下:
考虑到GPT-4等大型模型的竞争格局和安全影响,本报告不包含有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似方面的进一步细节。
OpenAI首席科学家兼联合创始人Ilya Sutskever在接受The Verge采访时进一步阐述了这一点。
Sutskever表示
OpenAI不分享更多关于GPT-4的信息的原因——对竞争的恐惧和对安全的恐惧——是“不言自明的”:
“在竞争格局方面,竞争非常激烈,”Sutskever说。“GPT-4的开发并不容易。几乎所有的OpenAI都花了很长时间共同努力才生产出这个东西。有很多公司都想做同样的事情,所以从竞争的角度来看,你可以将其视为该领域的成熟。”
“在安全方面,我想说的是,安全方面还没有竞争方面那么突出。但它会改变,基本上如下。这些型号非常强大,而且越来越强大。在某个时候,如果人们愿意的话,很容易对这些型号造成很大的伤害。随着性能的提高帽子,你不想透露它们。”
“我完全预计,几年后,每个人都会清楚地看到,开源人工智能是不明智的。”
对于OpenAI来说,这种封闭式的方法是一个显著的变化。OpenAI由一个小团体于2015年创立,其中包括现任首席执行官萨姆·奥特曼、特斯拉首席执行官埃隆·马斯克(2018年从董事会辞职)和Sutskever。Sutskever和其他人在一篇介绍性博客文章中表示,该组织的目标是“为每个人而不是股东创造价值”,并将与该领域的其他人“自由合作”。OpenAI最初是一家非营利组织,但后来成为了一个“利润上限”,以确保数十亿美元的投资,主要来自微软,该公司现在拥有独家经营许可证。
当被问及为什么OpenAI改变了分享研究的方式时Sutskever简单地回答说
“我们错了。坦率地说,我们也错了。如果你像我们一样相信,在某个时候,人工智能(AGI)会非常强大,令人难以置信,那么开源是没有意义的。这是一个坏主意……我完全预计,几年后,每个人都会完全清楚,开源人工智能是不明智的。”
人工智能界对此事的看法各不相同。值得注意的是,就在GPT-4发布的几周前,Facebook所有者Meta开发的另一个名为LLaMA的人工智能语言模型在网上泄露,引发了关于开源研究的威胁和好处的类似讨论。然而,大多数对GPT-4封闭模型的初始反应都是负面的。
Nomic AI的Schmidt通过DM接受The Verge采访时解释说
由于无法看到GPT-4是根据什么数据进行训练的,因此很难知道在哪里可以安全使用该系统并提出解决方案。
“为了让人们在知情的情况下决定这个模型在哪里不起作用,他们需要更好地了解它的作用以及其中的假设。”。“我不会相信一辆在没有雪地气候经验的情况下训练过的自动驾驶汽车;当它在实际情况下使用时,很可能会出现一些洞或其他问题。”
Lightning AI首席执行官、开源工具PyTorch Lightning的创始人William Falcon告诉VentureBeat,他从商业角度理解这一决定。(“作为一家公司,你完全有权这样做。”)但他也表示,此举为更广泛的社区树立了“糟糕的先例”,可能会产生有害影响。
“如果这种模式出了问题…社区应该如何反应?”
Falcon说:“如果这个模型出了问题,而且确实会出问题,你已经看到它产生幻觉,并向你提供虚假信息,那么社区应该如何反应?”。“伦理研究人员应该如何去提出解决方案,并说,这种方式行不通,也许可以调整它来做其他事情?”
一些人建议OpenAI隐藏GPT-4构建细节的另一个原因是法律责任。人工智能语言模型是在巨大的文本数据集上训练的,许多(包括早期的GPT系统)从网络上抓取信息,其中可能包括受版权保护的材料。同样接受过互联网内容训练的人工智能图像生成器发现,正是因为这个原因,他们面临着法律挑战,几家公司目前正被独立艺术家和股票图片网站盖蒂图片社起诉。
当被问及这是否是OpenAI没有分享其训练数据的原因时,Sutskever说:“我的观点是,训练数据就是技术。它看起来可能不是这样,但确实如此。我们不披露训练数据的理由与我们不披露参数数量的理由几乎相同。”。当被问及OpenAI是否可以明确声明其训练数据不包括盗版材料时,Sutskever没有回答。
Sutskever确实同意OpenAI的批评者的观点,即开源模型有助于制定保障措施的想法是“有价值的”。他说:“如果有更多的人研究这些模型,我们就会对它们有更多的了解,那就太好了。”。但由于这些原因,OpenAI为某些学术和研究机构提供了访问其系统的权限。
关于共享研究的讨论正值人工智能世界发生疯狂变化之际,多个方面的压力越来越大。在企业方面,谷歌和微软等科技巨头正急于在其产品中添加人工智能功能,往往忽视了之前的道德问题。(微软最近解雇了一个致力于确保其人工智能产品符合道德准则的团队。)在研究方面,技术本身似乎正在迅速改进,这引发了人们对人工智能正在成为一个严重而迫在眉睫的威胁的担忧。
英国智库The Centre for Long Term Resilience的人工智能政策主管Jess Whittlestone表示,平衡这些不同的压力是一项严峻的治理挑战,她表示,这可能需要第三方监管机构的参与。
“不应该由个别公司来做出这些决定。”
Whittlestone告诉The Verge:“我们看到这些人工智能能力发展得非常快,我普遍担心这些能力的发展速度会超过我们作为一个社会所能适应的速度。”。她说,OpenAI不分享GPT-4更多细节的理由是好的,但也有人对人工智能世界的权力集中表示担忧。
“不应该由个别公司来做出这些决定。”。“理想情况下,我们需要将这里的做法编纂成文,然后让独立的第三方在审查与某些模型相关的风险以及向世界发布这些模型是否有意义方面发挥更大的作用。”
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢