- 简介我们对大型语言模型(LLM)服务领域进行了调查,以了解成本效益和准确性之间的复杂动态,这种动态在大规模部署模型时需要更长的上下文理解而被放大。我们的调查结果显示,这个领域的工作会沿着三个不同但相互冲突的目标进行优化:提高服务上下文长度(C),提高服务准确性(A)和提高服务性能(P)。受数据库中CAP定理的启发,我们提出了一个适用于LLM服务的CAP原则,该原则建议任何优化最多只能同时提高这三个目标中的两个。我们在这个框架内对现有的工作进行了分类。我们发现,用户感知的度量指标的定义和连续性在确定是否已经达到目标方面非常关键,类似于之前在野外的CAP数据库。我们认识到LLM服务的CAP原则是一个指导性原则,而不是一个正式的定理,它可以告诉设计人员在服务模型中存在的固有和动态的权衡。由于服务准确性和性能已经得到了广泛的研究,因此本调查重点关注扩展服务上下文长度并解决由此产生的挑战的工作。
- 图表
- 解决问题如何在长文本理解的情况下平衡成本效益和准确性?
- 关键思路提出了LLM服务的CAP原则,即在长文本理解的情况下,任何优化最多只能同时提高两个目标:服务上下文长度、服务准确性和服务性能。
- 其它亮点论文对现有的LLM服务进行了分类,并提出了CAP原则作为指导原则,以帮助设计师在服务模型时进行权衡。论文还关注了用户感知测量指标的定义和连续性,这在确定是否达到目标时非常重要。
- 该领域最近的相关研究包括:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《RoBERTa: A Robustly Optimized BERT Pretraining Approach》等。
沙发等你来抢
去评论
评论
沙发等你来抢