
报告主题:USC|结合强化学习和低秩适应的极低成本微型推理语言模型Tina
报告日期:05月27日(周二)10:30-11:30
如何以最具成本效益的方式在语言模型中实现强大的推理能力?基于这一核心问题,我们提出了 Tina,这是一组以极高成本效益实现的微型推理模型。值得注意的是,Tina 展示了仅通过最少资源即可显著提升推理性能的可能性。具体而言,该方法通过对一个仅有 1.5B 参数的小型基础模型应用低秩适应(LoRA)技术,在强化学习(RL)过程中进行参数高效的更新。这种极简主义方法生成的模型在推理性能上能够与基于相同基础模型的现有最先进(SOTA)RL 推理模型相媲美,甚至在某些情况下超越它们,同时其计算成本仅为现有 SOTA 模型的一小部分。事实上,表现最佳的 Tina 模型在 AIME24 数据集上实现了超过 20% 的推理性能提升,并达到了 43.33% 的 Pass@1 准确率,而其后训练和评估的总成本仅为 9 美元(即估计成本减少了 260 倍)。我们的研究揭示了通过 LoRA 实现高效 RL 推理的惊人效果。我们通过多个开源推理数据集以及各种消融实验验证了这一点,所有实验均从单一固定超参数集开始。此外,我们推测 LoRA 的高效性和有效性源于其能够快速使模型适应由 RL 奖励的推理结构格式,同时在很大程度上保留了基础模型的底层知识。代码与模型已开源:https://github.com/shangshang-wang/Tina王上上是南加州大学(University of Southern California,USC)计算机科学博士一年级的学生,隶属于Viterbi工程学院和高级计算学院(School of Advanced Computing,SAC),由Willie Neiswanger教授指导。他在上海科技大学获得了计算机科学的硕士和学士学位。他目前的研究兴趣包括:生成式人工智能(GenAI),包括大语言模型(LLM)推理、后训练(post-training)以及测试时计算(test-time compute) 。未知情境下决策,包括强化学习(RL)和多臂老虎机(Bandits)以及应用于科学领域的人工智能(AI-for-Science),包括用于生物和健康的大语言模型。更多信息请访问他的个人主页:https://shangshang-wang.github.io/
扫码报名
更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢