GPT-3核心成员打造ChatGPT最强竞品Claude，新公司最新估值50亿美元

11名OpenAI前员工怒而出走，如今带着“ChatGPT最强竞品”杀回战场，新公司估值50亿美元，一出手就获得3亿美元融资。

这家公司名叫Anthropic，新推出的聊天机器人产品名叫Claude。

拿到内部试用权的网友，在简单对比后惊叹：

看起来，Claude的效果要比ChatGPT好得多。

比如，让ChatGPT写一句话，要求每个单词首字母都相同，结果试了好几次都没能成功。而Claude不光一次成功，语句富有逻辑性，还能秒速再来一个。

最有意思的是在写诗上。相比ChatGPT的车轱辘话，它写出来的东西完全不重样。这支“复仇者联盟”整出的竞品Claude，背后究竟是什么原理，和ChatGPT细节对比又如何？

Claude

作为一个AI对话助手，Claude自称基于前沿NLP和AI安全技术打造，目标是成为一个安全、接近人类价值观且合乎道德规范的AI系统。

据透露，Claude比Anthropic做的另一个预训练模型AnthropicLM v4-s3更大，后者是一个520亿参数大模型。

但目前它仍处于实验阶段，尚未作为商业产品正式发布。和ChatGPT一样，Claude也靠强化学习（RL）来训练偏好模型，并进行后续微调。

具体来说，这项技术被Anthropic称为原发人工智能（Constitutional AI），分为监督学习和强化学习两个阶段。

首先在监督学习阶段，研究者会先对初始模型进行取样，从而产生自我修订，并根据修订效果对模型进行微调。

随后在强化学习阶段，研究者会对微调模型进行取样，基于Anthropic打造的AI偏好数据集训练的偏好模型，作为奖励信号进行强化学习训练。

但与ChatGPT采用的人类反馈强化学习（RLHF）不同的是，Claude采用的原发人工智能方法，是基于偏好模型而非人工反馈来进行训练的。

因此，这种方法又被成为“AI反馈强化学习”，即RLAIF。

并且根据Anthropic的说法，Claude可以回忆8000个token里的信息，这比OpenAI现公开的任何一个模型都多。

Anthropic自称是一家AI安全公司，且具有公益性（PBC），刚成立就宣布获得1.24亿美元融资。它由OpenAI前研究副总裁Dario Amodei带领10名员工创业，于2021年成立。

这里面既有GPT-3首席工程师Tom Brown，也有OpenAI安全和政策副总裁Daniela Amodei（Dario的姐姐），可以说是带走了相当一批核心人才。

微软频频给OpenAI注资，随后又要求他们使用Azure超算来搞研究，而且将技术授权给微软，甚至为微软自己的投资活动筹集资金。

虽然OpenAI打造出了像GPT-3这样的大语言模型，然而这个模型背后的工作原理，却无法用只言片语概括，大家对它的印象仅仅停留在更大的参数量、更多的数据。

相比之下，OpenAI的一批员工更想做能控制、可解释的AI，说白了就是先搞明白AI模型背后的原理，从而在提供工具的同时设计更多可解释的AI模型。

于是，在OpenAI彻底变成“微软揽钱机器”后，他们便从这家公司离开，创办了Anthropic。

这两年来，除了进一步钻研RLHF方法、提出基于通用语言模型的RLHF大规模数据集外，Anthropic还于去年年底发表了上面那种名为Constitutional AI的方法。采用这种方法制作的Claude模型，也让它产生了与OpenAI的ChatGPT不一样的对话效果。

手握内测资格后，Scale Spellbook团队成员Riley Goodside让二者进行了多个回合的“厮杀”。这位老兄是全网第一个提示工程师（Prompt Engineer），目前在估值73亿美元的硅谷独角兽公司Scale AI任职。

他玩GPT-3玩得贼溜，测试ChatGPT和Claude也不含糊。

更多内容请参考原文

内容中包含的图片若涉及版权问题，请及时与我们联系删除