报告主题:零人工数据,强化学习推理模型Absolute Zero
报告日期:06月25日(周三)10:30-11:30
我们提出了一种全新的强化学习方法——Absolute Zero,它让语言模型在没有任何外部数据的情况下,自主提出学习任务并通过解决这些任务来提升推理能力。这种方法不再依赖人工制作的大量题目和答案,而是通过环境来验证任务和答案的正确性,从而提供可靠的学习反馈。我们设计的系统Absolute Zero Reasoner可以自主进化自己的训练内容和推理能力。尽管AZR完全没有使用外部数据,它在编程和数学推理任务上仍然达到了当前最先进的性能,超过了那些依赖大量人工数据的模型。我们还发现AZR适用于不同规模和类型的模型,具有良好的通用性和可扩展性。
扫码报名
更多热门报告
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢