智源TALK｜零人工数据，强化学习推理模型Absolute Zero，自主提出学习任务并通过解决这些任务来提升推理能力

报告主题：零人工数据，强化学习推理模型Absolute Zero

报告日期：06月25日（周三）10:30-11:30

报告要点:

我们提出了一种全新的强化学习方法——Absolute Zero，它让语言模型在没有任何外部数据的情况下，自主提出学习任务并通过解决这些任务来提升推理能力。这种方法不再依赖人工制作的大量题目和答案，而是通过环境来验证任务和答案的正确性，从而提供可靠的学习反馈。我们设计的系统Absolute Zero Reasoner可以自主进化自己的训练内容和推理能力。尽管AZR完全没有使用外部数据，它在编程和数学推理任务上仍然达到了当前最先进的性能，超过了那些依赖大量人工数据的模型。我们还发现AZR适用于不同规模和类型的模型，具有良好的通用性和可扩展性。

报告嘉宾：

赵启晨，清华大学自动化系博士四年级，研究方向是强化学习以及推理模型，其研究成果涉及大语言模型后训练、应用等多个方面。目前发表/在投15篇论文，其中多数发表在NIPS、AAAI、ACL等顶级会议上、长期担任NIPS、ICLR、ICML等顶会审稿人。在GitHub上共获得1500个stars，并且被国内外外知名机构使用。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题，请及时与我们联系删除

智源TALK｜零人工数据，强化学习推理模型Absolute Zero，自主提出学习任务并通过解决这些任务来提升推理能力

评论列表

评论