Leveraging Large Language Models to Enhance Domain Expert Inclusion in Data Science Workflows

简介

领域专家在指导数据科学家优化机器学习模型并确保下游使用的上下文相关性方面可以发挥关键作用。然而，在当前的工作流程中，由于专业知识的差异、抽象的文档实践以及对低级实现工件的访问和可见性的缺乏，这种协作是具有挑战性的。为了解决这些挑战并实现领域专家的参与，我们介绍了CellSync，这是一个协作框架，包括(1)一个Jupyter Notebook扩展，可以持续跟踪数据帧和模型指标的变化，以及(2)一个由大型语言模型驱动的可视化仪表板，使这些变化对领域专家可解释。通过CellSync的单元级数据集可视化和代码摘要，领域专家可以交互式地检查单个数据和建模操作如何影响不同的数据段。聊天功能可以进行数据中心的对话并向数据科学家提供有针对性的反馈。我们的初步评估表明，CellSync提供了透明度并促进了关于数据操作意图和影响的重要讨论。
图表
解决问题

如何促进领域专家与数据科学家之间的协作，以优化机器学习模型并确保下游应用的上下文相关性？
关键思路

引入CellSync，一种协作框架，包括Jupyter Notebook扩展和大型语言模型驱动的可视化仪表板，使领域专家能够交互式地检查单个数据和建模操作如何影响不同的数据段。
其它亮点

CellSync提供透明度，促进数据操作意图和影响的关键讨论。使用聊天功能，领域专家和数据科学家之间可以进行数据中心的对话和有针对性的反馈。初步评估表明CellSync可以提供透明度，并促进关于数据操作意图和影响的关键讨论。
相关研究

与该论文相关的研究包括：1. Jupyter Notebook的其他扩展和工具，例如JupyterLab和Voilà；2. 可解释性机器学习的研究，例如LIME和SHAP；3. 大型语言模型的研究，例如GPT和BERT。

Leveraging Large Language Models to Enhance Domain Expert Inclusion in Data Science Workflows

评论