近日,ChatGPT最强竞品Claude开放API。
本次提供两个版本的 Claude:Claude 和 Claude Instant。 Claude 是最先进的高性能模型,而 Claude Instant 是更轻、更便宜、更快的选择。 Anthropic计划在未来几周推出更多更新,并从安全研究和部署中学到更多,使它们更有用、更诚实、更无害。
用户可以通过邮箱等信息注册申请试用。
产品地址:https://www.anthropic.com/product
申请地址:https://www.anthropic.com/earlyaccess
API说明:https://console.anthropic.com/docs/api
Claude 是 Anthropic新推出的一款类似于 ChatGPT 的 AI 助手,后者是从 OpenAI 出走的前员工们集体创建的 AI 初创公司。作为一个AI对话助手,Claude自称基于前沿NLP和AI安全技术打造,目标是成为一个安全、接近人类价值观且合乎道德规范的AI系统。
Anthropic自称是一家AI安全公司,且具有公益性(PBC),刚成立就宣布获得1.24亿美元融资。它由OpenAI前研究副总裁Dario Amodei带领10名员工创业,于2021年成立。
是由11名OpenAI前员工创立的,新公司估值50亿美元,获得3亿美元融资。GPT-3核心成员打造ChatGPT最强竞品Claude,新公司最新估值50亿美元。
Claude
作为一个AI对话助手,Claude自称基于前沿NLP和AI安全技术打造,目标是成为一个安全、接近人类价值观且合乎道德规范的AI系统。
据透露,Claude比Anthropic做的另一个预训练模型AnthropicLM v4-s3更大,后者是一个520亿参数大模型,和ChatGPT一样,Claude也靠强化学习(RL)来训练偏好模型,并进行后续微调。
具体来说,这项技术被Anthropic称为原发人工智能 (Constitutional AI),分为监督学习和强化学习两个阶段。
首先在监督学习阶段,研究者会先对初始模型进行取样,从而产生自我修订,并根据修订效果对模型进行微调。随后在强化学习阶段,研究者会对微调模型进行取样,基于Anthropic打造的AI偏好数据集训练的偏好模型,作为奖励信号进行强化学习训练。但与ChatGPT采用的人类反馈强化学习(RLHF)不同的是,Claude采用的原发人工智能方法,是基于偏好模型而非人工反馈来进行训练的。因此,这种方法又被成为“AI反馈强化学习”,即RLAIF。
并且根据Anthropic的说法,Claude可以回忆8000个token里的信息,这比OpenAI现公开的任何一个模型都多。
具体可参见之前关于Claude的报道。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢