Automating Code Adaptation for MLOps -- A Benchmarking Study on LLMs

简介

本文探讨了当前大型语言模型在将机器学习操作（MLOps）功能整合到机器学习训练代码库中的可能性。我们评估了OpenAI（gpt-3.5-turbo）和WizardCoder（开源，15B参数）模型在不同环境中自动完成各种MLOps功能的表现。我们进行了基准测试研究，评估了这些模型适应现有代码样本（Inlining）并加入特定于组件的MLOps功能（如用于实验跟踪的MLflow和Weights＆Biases，用于超参数优化的Optuna等）的能力，以及执行从MLOps功能的一个组件到另一个组件的翻译任务，例如将现有基于GitPython库的版本控制代码翻译为基于Data Version Control库的代码。我们还提出了三种不同的方法，涉及教授LLMs理解组件的API文档作为参考，同时完成翻译任务。在我们的评估中，gpt-3.5-turbo模型在模型优化（55％，相比WizardCoder的0％），实验跟踪（100％，相比WizardCoder的62.5％），模型注册（92％，相比WizardCoder的42％）和超参数优化（83％，相比WizardCoder的58％）方面表现出色，在最佳设置下平均显着优于WizardCoder，展示了其在复杂的MLOps任务中的优越代码适应性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究如何将大型语言模型应用于机器学习操作（MLOps）功能的整合，包括自动完成MLOps功能和翻译不同组件之间的代码。
关键思路

使用OpenAI（gpt-3.5-turbo）和WizardCoder（开源，15B参数）模型进行基准测试，通过教授LLMs理解组件的API文档来解决翻译任务，并提出三种不同的方法。结果表明，gpt-3.5-turbo模型在复杂的MLOps任务中具有更好的代码适应性表现。
其它亮点

实验设计了基准测试，评估了模型在不同设置下完成MLOps功能的能力，展示了gpt-3.5-turbo模型在模型优化、实验跟踪、模型注册和超参数优化方面的卓越表现。论文提出的方法可以为其他领域的自动化代码编写提供参考。
相关研究

最近的相关研究包括使用大型语言模型进行代码自动生成和自动化，例如CodeBERT和GPT-2等。

Automating Code Adaptation for MLOps -- A Benchmarking Study on LLMs

提问交流

提问交流