报告主题:零人工数据,强化学习推理模型Absolute Zero

报告日期:06月25日(周三)10:30-11:30

报告要点:

我们提出了一种全新的强化学习方法——Absolute Zero,它让语言模型在没有任何外部数据的情况下,自主提出学习任务并通过解决这些任务来提升推理能力。这种方法不再依赖人工制作的大量题目和答案,而是通过环境来验证任务和答案的正确性,从而提供可靠的学习反馈。我们设计的系统Absolute Zero Reasoner可以自主进化自己的训练内容和推理能力。尽管AZR完全没有使用外部数据,它在编程和数学推理任务上仍然达到了当前最先进的性能,超过了那些依赖大量人工数据的模型。我们还发现AZR适用于不同规模和类型的模型,具有良好的通用性和可扩展性

报告嘉宾:
赵启晨,清华大学自动化系博士四年级,研究方向是强化学习以及推理模型,其研究成果涉及大语言模型后训练、应用等多个方面。目前发表/在投15篇论文,其中多数发表在NIPS、AAAI、ACL等顶级会议上、长期担任NIPS、ICLR、ICML等顶会审稿人。在GitHub上共获得1500个stars,并且被国内外外知名机构使用。

扫码报名


更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除