Which LLM to Play? Convergence-Aware Online Model Selection with Time-Increasing Bandits

简介

随着LLM的普及，像聊天机器人、搜索引擎和新闻推荐等基于Web的应用程序不断增长，规模和复杂性也在不断增加。因此，在线模型选择因需要在平衡任务奖励和探索成本的同时在多个不同的模型中选择最佳模型而受到越来越多的关注。组织面临着诸如选择是否使用昂贵的基于API的LLM或本地微调的小型LLM等决策，权衡成本与性能。传统的选择方法通常在选择一个候选模型之前评估每个候选模型，但随着训练和微调LLM成本的不断上升，这种方法变得不切实际。此外，将过多的资源分配给探索性能较差的模型是不可取的。虽然一些最近的研究利用在线赌博算法来管理这种探索-开发权衡，但它们往往忽略了模型在迭代微调过程中性能增长然后趋于稳定的趋势，导致预测不够准确和模型选择不够优化。本文提出了一种时间递增的赌博算法TI-UCB，有效预测由于微调而导致的模型性能增长，并在模型选择中高效平衡探索和开发。为了进一步捕捉模型的收敛点，我们通过比较连续的增长预测开发了一种变化检测机制。我们在典型的递增赌博设置中理论上证明了我们的算法达到了对数遗憾上限，这意味着快速的收敛速度。我们的方法的优势也通过分类模型选择和LLM的在线选择的大量实验得到了经验证实。我们的结果突出了利用递增然后收敛模式进行更有效和经济的模型选择在LLM部署中的重要性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决在线模型选择中平衡任务奖励和探索成本的问题，通过有效预测模型性能的增长来实现更高效和经济的模型选择。
关键思路

提出了一种时间递增的Bandit算法TI-UCB，通过有效预测模型性能的增长来平衡探索和利用，同时开发了一种变化检测机制来捕捉模型收敛点，从而实现更高效和经济的模型选择。
其它亮点

论文通过广泛的分类模型选择和在线LLM选择实验验证了该算法的优越性，同时证明了算法在典型递增Bandit设置中达到对数遗憾上界，具有快速收敛速度。
相关研究

最近的一些工作利用在线Bandit算法来管理探索-利用平衡，但它们往往忽略了模型性能随着迭代微调而递增然后收敛的趋势，导致预测不够准确和次优的模型选择。

Which LLM to Play? Convergence-Aware Online Model Selection with Time-Increasing Bandits

提问交流

提问交流