《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

随着自动机器学习（AutoML）系统在复杂性和性能方面的不断进步，了解这些框架内人机交互（HCI）的 "方式"和"原因"变得非常重要，包括当前和预期。这样的讨论对于优化系统设计、利用先进的数据处理能力来支持涉及人类的决策是必要的，但它也是确定不断提高的机器自主性所带来的机会和风险的关键。在此背景下，我们关注以下问题：(i) 对于最先进的AutoML算法，特别是在开发、部署和维护阶段，人机交互目前是怎样的？(ii) 不同类型的用户和利益相关者对AutoML框架内的人机交互的期望是否不同？(iii) 如何管理人机交互以使AutoML解决方案获得人类的信任和广泛接受？(iv) 随着AutoML系统变得更加自主并能够从复杂的开放式环境中学习，人机交互的基本性质是否会发生变化？为了考虑这些问题，我们将人机交互的现有文献投射到AutoML的空间中；到目前为止，这种联系在很大程度上还没有被探索过。在此过程中，我们回顾了包括用户界面设计、减少人类偏见和人工智能（AI）的信任等主题。此外，为了严格衡量人机交互的未来，我们思考了AutoML如何在有效的开放式环境中表现出来。这场讨论必然会回顾AutoML的预计发展路径，例如推理的融入，尽管重点仍然是人机交互如何以及为什么会在这样一个框架中发生，而不是任何实施细节。最终，这一回顾有助于确定关键的研究方向，以更好地促进人类与当前和未来的AutoML系统的互动作用和模式。

关键词：人机交互, 自动机器学习(AutoML), 自主机器学习(AutonoML), 人类交互的角色和模式, 机器学习工作流程, 公平性, 可解释性, 用户界面, 用户体验, 利益相关者, 推理, 封闭世界的AutonoML系统, 开放世界的AutonoML系统, 数据驱动的机器学习, 知识驱动的机器学习, 工业4.0, 工业5.0

https://arxiv.org/abs/2205.04139

引言

自20世纪50年代以来，人们对机器学习（ML）的广泛兴趣一直在起伏，但近年来可以说见证了该领域历史上的一个新阶段：主流社会对技术的吸收和参与达到了前所未有的水平。从模因的深度伪造到商业的推荐系统，ML已经成为更广泛社会中的一个固定项目。不过，从纯学术范围内的持续过渡并不顺利，这并不令人惊讶；一般公众并不具备充分开发ML能力所需的数据科学方面的广泛专业知识。

大众化的理想解决方案是使ML的应用有选择地独立于人类的参与。这是自动/自主机器学习（AutoML/AutonoML）的主要目标，这项工作尽管有丰富的多方面的历史[148]，但只是在过去十年中才真正起飞。通过应用于模型选择的重大优化进展[251, 284, 291]，AutoML的范围已经扩大到ML应用的所有方面的自动化。事实上，只要有意愿和方法，ML系统似乎不可避免地会越来越接近自主化。

截至2020年代初，围绕着一般ML[148]和深度学习（DL）[70]自动化操作的机制和集成系统，已经写了很多；后者的机械化主题被缩写为AutoDL。这些讨论大多注重"自动化"的概念，与计算机如何自己做出高级决策的挑战作斗争。然而，有一个重要的话题却没有得到充分的探讨：人类是如何融入其中的？这是需要考虑的关键，因为无论其自主功能的能力发展到什么程度，AutoML系统的目的都是为了支持人类决策。因此，也许是反直觉的，互动不能是事后的考虑[6]。

即使学术界关注模型的准确性和算法的效率，如果系统不欢迎和利用人类的可选输入，也不能被认为是最佳的。此外，在学术界之外，"高性能 "ML的概念变得更加复杂和以用户为中心[258]；最有前途的算法和架构可能是那些能够灵活地定制输出以满足非常广泛的要求的算法和架构。然后是关于ML系统应该被赋予多大的自主权的争论。虽然人与系统的关系最终可能成为一种合作关系[311]，但人类不可能放弃监督[81]。许多研究人员也表达了类似的观点，指出人类的经验是不可或缺的，不能指望人工智能以社会责任的方式自主运作[319]。由于这众多的原因，对AutoML的整体理解需要对人机交互（HCI）进行相关研究。

这是一个丰富的话题；人类与AutoML互动的性质，无论是角色还是模式，都已经发生了变化，并将继续随着该领域的发展而发生变化。作为对这些发展的类比，考虑一下人工智能（AI）在国际象棋方面的历史。在20世纪60年代末，Mac Hack成为第一个在人类比赛中下棋的国际象棋程序，甚至在比赛中取得了胜利[109]。Mac Hack是自动化的，但严重依赖领域知识--它包含了大约50个基于专家的启发式方法--并且几乎没有对人类在国际象棋中的主导地位构成威胁，它可以被比作2010年代之前开发的原版AutoML模型推荐系统[259, 304]：在当时是新颖和令人印象深刻的，但有很大的局限。但最终，到1997年，计算资源的扩展和算法技术的进步使一台被称为 "深蓝 "的国际象棋计算机击败了卫冕世界冠军[45]。正如2010年代新一轮的超参数优化AutoML系统[251, 284, 291]一样，深蓝预示着一个时代，在执行特定任务方面，计算机的能力将远远超过人类。

值得注意的是，即使在1997年著名的比赛中，深蓝也远非自主，它利用了人类规定的开局和残局元知识数据库，同时也由大师们在比赛之间手动调整。只有在2017年，随着AlphaZero[329]的首次发布，人类的输入几乎完全被移除，人工智能系统自主地学习通过自我发挥在国际象棋中支配人类。事实上，最新一代基于国际象棋的人工智能已经开始将人类的角色从导师转变为学生，例如，人工智能的 "h-卒推力 "倾向让高水平棋手陷入了思考[198]。AutoML领域还没有达到同样的自主水平，但还是值得一问：这就是未来要计划的互动状态吗？AutoML最终会不会在如何解决一个ML任务方面产生比它目前收到的更多的洞察力？

图 1. 机器学习 (ML) 工作流程的一般示意图，即为 ML 应用程序生成和维护 ML 模型所涉及的操作。

对AutoML中的人机交互的全面概述，包括当前的和未来的，都需要仔细组织。例如，人类对ML应用的参与可以分为两类：生产性和消费性。后者指的是终端用户如何参与并受益于一个ML模型，而前者则与这样一个模型的产生有关。这些 "生产性"实践可以以多种方式编入 "ML工作流程"[53, 280]，但图1对其中一个特定的表述[70, 148, 258]进行了说明。

在ML工作流程的描述中，很明显，在开发、部署和维护ML模型时，有几个阶段的操作。其中，模型开发阶段在AutoML学术研究中受到最多关注，特别是在DL和神经结构搜索（NAS）的情况下[70]，但也有许多自动化努力应用于典型的ML工作流程的其余部分。事实上，持续监测性能和适应数据环境的动态变化的能力先前已被强调为AutoML和AutonoML之间过渡的关键先决条件[148]。与此相关，存在许多支持在线学习的理论建议[162]，并且最近在学术界进行了使AutoML系统 "持久化 "的初步实验研究[14, 51]。同时，在工业界，"MLOps "的新兴趋势反映了自动部署对现实世界需求的重要性[258]。从本质上讲，任何有兴趣设计一个全面的AutoML/AutonoML系统的开发者都必须了解每一个工作流程阶段的特异性，例如，人类输入/指导的相关格式，基准操作的最低要求，额外的人类辅助学习的可能机会，等等。

另外，与其在AutoML中以交互发生的时间来划分人机交互，有时考虑谁在进行交互更有意义。这种观点在商业和工业中尤其自然[258]，在那里，除了消费ML模型输出的终端用户，通常还有许多与模型生产相关的利益相关者。这些人可能包括数据科学家或软件开发人员形式的技术人员，项目经理或领域专家形式的业务人员，第三方审计师或政府机构形式的监管团体，等等。

重要的是，不同利益相关者的义务和利益通常不能映射到图1中描述的ML工作流程的各个阶段。此外，他们的互动模式也可能有很大的不同。一些角色要求对AutoML过程进行精细控制，而另一些角色则只需要一个输入的入口点。有些角色希望有一个了解相关机制的窗口，而另一些角色只希望在出错时得到提醒。不管是什么情况，这些要求必须在算法和架构的基本层面上加以考虑。在系统设计过程中，仅仅关注预测器的准确性和效率，而只是通过匆忙的修补来满足任何剩余的现实世界的期望，这并不是最佳选择。

最重要的是，值得强调的是，"用户 "的概念是AutoML的利益相关者观点所固有的。对于那些只对改善ML算法的统计理论感兴趣的人来说，这似乎是一个不必要的干扰，但这种态度忽略了ML运作的更大的生态系统：人类决策。例如，人类可能愿意容忍不喜欢40%的人工智能推荐的音乐，而人工智能推荐的定罪的20%的假阳性率可以说是糟糕透顶。简单地说，人类环境比任何不可知的准确性指标更重要。因此，成功地将ML模型的性能转化为现实世界的结果取决于一系列与参与有关的要求[12, 73, 76, 256, 264]，我们在此将其捆绑在 "用户体验"（UX）标题下。这包括最近扩散到围绕ML和AutoML的学术讨论中的话题，如可及性、透明度、公平性、可靠性等等[319]。

因此，用户交互（UI）的概念--实现不需要是单一的--在利益相关者的视角下对AutoML变得特别重要，因为这是可以最直接管理UX的地方。事实上，设计智能用户界面对于支持人类引导的AutoML至关重要[105, 168]，其中技术用户可能作为一种理想，调整问题设置，探索数据特征，限制模型搜索空间等。这些互动也可能被其发生的方式所限制或促进，例如通过触摸屏、语音命令、手势识别，甚至是大脑信号[320]。简而言之，围绕接口的概念进行更多的讨论将对AutoML领域大有裨益，这样，除了简单地实现对ML操作的控制外，用户既可以注入领域知识，又可以轻松地提取可理解的信息。

谈到影响用户体验的因素，可解释性在列表中名列前茅。这对AutoML来说尤其是一个挑战，因为自动化的核心原则是将人类与某些操作脱钩。因此，花费研究精力使这些过程透明化，从而鼓励人类重新参与，似乎是一种浪费，甚至是反作用。当然，目前许多AutoML工具都是坚定的黑箱系统[319]，掩盖了ML模型是如何建立的，以及预测/说明性输出是如何产生的。但这里有一个细微的差别；AutoML的目的是要消除人类参与的必要性，而不是选择。因此，如果用户不能理解如何正确地插入对ML任务有益的领域知识，那么技术上的模糊性实际上会阻碍ML的性能[180]。这在目前的时间点上尤其是一个缺点，因为人在回路中的学习仍然常常比以机器为中心的ML更有优势[285]。

无论如何，即使AutoML系统是完全自主的，其内部不受人类影响，可解释性也是促进信任的必要条件[187]。调查显示，如果没有透明和可理解的机制，数据科学家往往对AutoML工具提供的ML模型持怀疑态度[73]。同样地，如果系统能够显示其背后的推理，终端用户才会遵循ML建议[302]。人们对使用他们无法理解或解释的结果的这种缄默，对于简单的商业应用来说可能是令人沮丧的，但在高风险的情况下，这完全是有道理的[244]，包括医疗诊断、金融投资和刑事司法。否则可能是灾难性的。例如，COMPAS累犯预测模型[66]、谷歌在2018年加州野火期间使用的BreezoMeter实时空气质量预测模型[192]，以及一般的黑盒医疗诊断模型[74]，都与不良后果有关。

另一个影响用户体验的因素是公平性，即使是在利益相关者没有直接意识到他们在 "使用 "ML的结果时也是如此。这一社会意识的要求最近被学术研究作为一个重要的问题[50, 193, 326]，表明ML在多大程度上嵌入了主流，并认识到预测/说明的准确性和错误可能以不同的方式不成比例地影响不同的人。现在，当然，已经有努力将发现和防止ML模型中的歧视的机制自动化[116]，但挑战是有许多可能的公平的技术定义，往往是正交的，有时是矛盾的[254, 307]。再一次，人的背景很重要。因此，如何将人类的监督最好地整合到AutoML系统中，对机械化的过程执行道德要求，是一个开放的问题。

当然，虽然每个ML算法都会应用自己的假设，但许多 "不公平 "的偏见往往来自于生物神经元，即人类的大脑。这些可以通过数据和知识注入到学习系统中，表现在信息内容和采样方面。因此，人类的认知偏差如果被内化，就会导致模型的可靠性下降，而且有许多引人注目的例子[131, 327]。这些影响的严重程度也会因环境而异。医疗保健就是一个高风险环境的例子，临床实践中的认知偏差会对医疗结果产生很大影响[228, 253]。事实上，预测系统的类似缺陷已被证明阻碍了社会少数群体接受额外的护理服务[214]。因此，当务之急是更彻底地考虑AutoML内偏见缓解策略的性质和实施。

从根本上说，所有这些讨论的重点是，鉴于一个合适的概念框架，如ML操作的双重工作流程/利益相关者的角度，有可能参与许多与人机交互相关的问题，这些问题如果不解决，将阻碍AutoML迄今为止的快速进展。此外，这种系统化的方法不仅仅是澄清AutoML中人机交互的现状；它提供了一个镜头，通过它可以预测ML中这一趋势的未来。这并不意味着推测人机交互相关机制的详细实现，而是理解人类与系统互动的预计演变，特别是当算法和架构在其工作中变得更好。因此，前面提到的国际象棋的比喻仍然有助于说明这一进展，因为AutoML系统沿着自主性的频谱进一步转移[270]。

然而，再猜想一下还是很有价值的。AlphaGo[267]和AlphaZero[268]在他们各自的游戏中都非常有能力，但他们仍然在特定的环境中受到限制。一个相当的AutoML系统基本上可以自主地完成图1中ML工作流程的每一个阶段，除了一个例外：问题制定和上下文理解。这样的限制并不意外，因为这个阶段可能是ML中必要的人类参与的最后堡垒。不幸的是，它确实阻碍了许多人工智能的应用。例如，在自动驾驶汽车领域存在大量的研究和开发[122, 167]，然而，在不可预测的和有效的无边界的驾驶环境中操作的挑战，到目前为止仍然是令人生畏的[119]。尽管如此，如果不深入到人工通用智能领域，这些限制最终会放松。新颖的MuZero系统[257]已经体现了一种新兴的强化学习方法，它可以无意识地应用于具有不同规则的各种游戏，从第一原理中自主地建立合格的模型。在理论上，认知模型最终可能会进一步增强这一过程，使ML系统能够通过实际理解上下文，而不是直接忽略它，有效地将知识从一个问题转移到另一个问题。因此，当AutoML真正成为AutonoML，然后开始放松到开放世界的学习时：人与系统的互动将再次改变？

正如现在所看到的，在AutoML和人机交互的重叠部分有许多重要的问题需要考虑。这篇评论讨论了这些话题，标志着一系列致力于系统性和概念性概述AutoML的专著的最后部分[70, 148, 258]。具体来说，由于该系列以前集中于计算机如何在没有人类的情况下执行ML/DL[70, 148]，这项工作旨在将AutoML/AutonoML重新纳入人类决策的生态系统中。事实上，由于ML在现实世界中不是在真空中运行的，这种相互联系的一些有机产生的后果已经被本系列中的前一个技术调查[258]所捕获。然而，这篇评论在以下问题的驱动下，更深入地探讨了AutoML中人机交互的基本原理。

目前最先进的AutoML算法的人机交互是怎样的，特别是在开发、部署和维护阶段？
不同类型的用户和利益相关者对AutoML框架内的人机交互的期望是否不同？
如何管理人机交互，以使AutoML解决方案获得人类的信任和广泛接受？
随着AutoML系统变得更加自主并能够从复杂的开放式环境中学习，人机交互的基本性质是否会发生变化？

内容中包含的图片若涉及版权问题，请及时与我们联系删除

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

引言

评论列表

评论