- 简介许多公司依赖于托管的人工智能模型的API,例如OpenAI的GPT-4,以在其产品中创建AI-enabled体验。除了易于使用和缩短生产时间的好处外,这种对专有API的依赖在模型控制、性能可靠性、正常运行时间可预测性和成本方面存在缺点。同时,已经有许多开源的小语言模型(SLM)可供商业使用。然而,它们是否准备好取代现有的能力仍不清楚,并且系统化的测试这些模型的方法也不容易获得。在本文中,我们提出了一种系统的评估方法,用于表征现代开源SLM及其在替换实际产品功能的专有LLM API时的权衡。我们设计了SLaM,这是一种自动化分析工具,可使用任意SLM对产品功能进行定量和定性测试。使用SLaM,我们检查现代SLM的质量和性能特征,相对于现有的面向客户的基于OpenAI的实现。我们发现,在9个SLM和29个变体中,我们观察到我们的用例的竞争结果质量,显着的性能一致性改进,并且与OpenAI GPT-4相比,成本降低了5倍至29倍。
-
- 图表
- 解决问题评估开源小型语言模型替代专有API的可行性和效果
- 关键思路设计了系统化的评估方法,使用自动化分析工具SLaM对9种小型语言模型进行了定量和定性测试,发现在实际产品功能中,这些模型可以取代专有API,且性能更稳定、成本更低
- 其它亮点使用SLaM工具对9种小型语言模型进行了测试,发现它们可以替代专有API,且性能更稳定、成本更低;实验结果可以帮助企业更好地选择合适的模型,提高产品性能和降低成本
- 该论文没有明确提及相关研究
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流