🔛智源社区日报关注订阅🔛

 

作者:Humanloop联合创始人兼首席执行官Raza

Raza是Humanloop的首席执行官兼联合创始人。在剑桥大学学习物理学时,他受到启发,将人工智能作为“我们一生中最具变革性的技术”来研究。Raza是Monolith AI的创始工程师——将人工智能应用于机械工程,并在谷歌人工智能中构建了语音系统。他拥有加州大学学院的机器学习博士学位。

 

原文链接:https://humanloop.com/blog/openai-plans 

上周,我有幸与Sam Altman和其他20名开发人员坐下来讨论OpenAI的API及其产品计划。Sam非常开放。讨论涉及了实际的开发人员问题,以及与OpenAI的使命和人工智能的社会影响相关的大问题。以下是关键的要点:

1.目前,OpenAI的GPU受到严重限制

讨论中经常提到的一个主题是,目前OpenAI的GPU资源非常有限,这导致了许多短期计划的延迟。最大的客户投诉是关于API的可靠性和速度。Sam承认了他们的担忧,并解释说问题的大部分原因是由于GPU短缺引起的。

目前还不能将更长的32k上下文范围推广给更多人使用

OpenAI还没有克服注意力机制的O(n^2)扩展问题,因此虽然他们看起来可能会很快(今年内)实现100k-1M标记的上下文窗口,但更大的范围则需要研究上的突破。

微调API目前也受到GPU可用性的瓶颈限制

他们目前还没有使用高效的微调方法,比如Adapters或LoRa,因此微调过程需要大量的计算资源。未来将提供更好的微调支持。他们甚至可能会提供一个由社区贡献的模型构成的市场。

专用容量的提供受到GPU可用性的限制

OpenAI还提供专用容量,为客户提供模型的私有副本。要使用此服务,客户必须愿意预先承诺10万美元的开支。

2.OpenAI的近期路线图

Sam分享了他所看到的OpenAI的API临时近期路线图。

2023年

更便宜和更快的GPT-4

这是他们的首要任务。总体而言,OpenAI的目标是将"智能的成本"降到最低,因此他们将努力不断降低API的成本。

更长的上下文窗口

在不久的将来,上下文窗口高达100万个标记是可行的。微调API,微调API将扩展到最新的模型,但具体形式将根据开发者真正需要的内容来确定。

一个有状态的API

当你今天调用聊天API时,你必须反复传递相同的对话历史,并且需要支付相同的标记费用。在未来,将会有一个记住对话历史的API版本。

2024年: 多模态

这是GPT-4发布的一部分进行演示,但在更多GPU上线之前,无法扩展到所有人。

 

3.插件“没有PMF”,可能不会很快进入API

许多开发人员对通过API访问ChatGPT插件感兴趣,但Sam表示,他认为这些插件不会很快发布。除浏览外,插件的使用表明他们还没有PMF。他建议,很多人认为他们希望他们的应用程序在ChatGPT中,但他们真正想要的是他们的应用程序中的ChatGPT。

4.除了ChatGPT之外,OpenAI将避免与客户竞争

相当多的开发人员表示,当OpenAI最终可能发布对他们有竞争力的产品时,他们对使用OpenAI API进行构建感到紧张。Sam说,OpenAI不会发布ChatGPT以外的更多产品。他说,伟大的平台公司拥有一个杀手级应用程序的历史,ChatGPT将允许他们通过成为自己产品的客户来使API变得更好。ChatGPT的愿景是成为一名超级智能的工作助理,但会有很多其他GPT用例,OpenAI不会触及。

5.需要监管,但开源也需要监管

虽然Sam呼吁对未来模型进行监管,但他并不认为现有模型是危险的,并认为监管或禁止它们是一大错误。他重申了他对开源重要性的信念,并表示OpenAI正在考虑开源GPT-3。他们尚未开源的部分原因是,他对有多少个人和公司有能力托管和使用大模型持怀疑态度。

6. 规模定律仍然适用

最近,许多文章声称“巨型人工智能模型的时代已经结束”。这不是对意义的准确表示。

OpenAI的内部数据表明,模型性能的规模定律(Scaling laws)继续有效,使模型变大将继续产生性能。缩放速度无法保持,因为OpenAI在短短几年内使模型变大了数百万倍,而这样做是不可持续的。这并不意味着OpenAI不会继续试图使模型变大,它只是意味着它们每年的规模可能会增加一倍或三倍,而不是增加许多数量级。

扩展继续工作的事实对AGI开发的时间表有重大影响。缩放假设的想法是,我们可能拥有构建AGI所需的大部分部件,其余大部分工作将采用现有方法,并将其扩展到更大的模型和更大的数据集。如果缩放时代已经结束,那么我们可能应该期望AGI会走得更远。缩放法继续有效这一事实强烈表明时间会缩短。

HumanLoop提供的是文本和语音数据的标注服务,通过这些标注数据,可以训练AI模型,使其能够更好地理解人类语言和交流方式,还提供了自然语言处理和计算机视觉两个核心技术领域的开发工具和API,方便开发者进行相关应用的开发和实现,和各种形式的客户支持、培训和咨询服务,以帮助企业和开发者更好地利用这些技术实现自己的业务和目标。