摘要
现实生活中的问题是动态的,并且与具有多种选择的决策过程有关。我们需要通过优化来解决其中的一些动态决策问题。当我们需要在决策过程中对多个参数进行权衡时,特别是在动态环境中,解决这些问题具有挑战性。然而,在人工智能(AI)的帮助下,我们可以有效地解决这些问题。本研究旨在研究利用深度强化学习(DRL)算法为动态多目标环境开发一个智能决策方案。这包括在强化学习(RL)环境中开发一个动态多目标优化领域的基准,这刺激了使用传统的深海宝藏(DST)基准开发一个改进的测试平台。拟议的测试平台是在改变最佳帕累托前沿(PF)和帕累托集(PS)的基础上创建的。就我所知,这是第一个用于RL环境的动态多目标测试平台。此外,还提出了一个框架来处理动态环境中的多目标,从根本上保持不同目标之间的平衡,以提供一个与真正的PF相近的折衷方案。为了证明这一概念,所提出的模型已经在现实世界的场景中实施,以预测基于巴西圣保罗水质弹性的脆弱区域。
所提出的算法,即奇偶深度Q网络(PQDQN)被成功实施和测试,智能体在实现目标(即获得奖励)方面表现优异。尽管与多目标蒙特卡洛树搜索(MO-MCTS)智能体相比,该智能体需要更多的训练时间(即步骤数),但与多策略DQN(MPDQN)和多帕累托Q学习(MPQ)算法相比,其寻找帕累托最优解决方案的准确性明显提高。
结果显示,所提出的算法可以在动态环境中找到最优解。它允许在不对智能体进行任何再训练和行为调整的情况下适应新的目标。它也制约着需要选择的策略。就动态DST测试平台而言,它将为研究人员提供一个进行研究的新维度,使他们能够在解决动态性质的问题时测试他们的算法。
关键词:深度强化学习,多策略,多目标优化,动态环境,深度Q网络,矢量奖励,基准,水质评价,复原力。
第1章 简介
今天的人类生活受益于科学及其各种应用。特别是,人工智能(AI)增加了一个新的层面,使人们相信人类的智慧可以被人工取代。然而,智能本身是如此庞大、自发、原始和不确定,以至于在不久的将来,它可能无法被纯粹地复制或取代。尽管如此,还是有强大的科学团体相信这种替代,从学术角度来看,它确实值得赞赏(Jarrahi, 2018; King and Grudin, 2016)。然而,智能的机制可以通过建立机器、智能体和系统,甚至编写计算机程序,在一定的边界内进行分析。这种人工开发的系统可以协助人类做出更好的决定,或根据人类定义的一套规则行事(Duan, Edwards and Dwivedi, 2019)。
换句话说,科学界在开发学习如何智能并相应执行的系统方面会有更大的成功(Julian Togelius,2007;Yannakakis和Togelius,2015)。本论文的重点是建立一个智能决策方案,处理多目标(MO)环境中的动态问题。更具体地说,本研究指导如何开发一个计算机应用程序,使其学习到智能,并在动态多目标(DMO)环境中使用深度强化学习(DRL)执行识别优化的解决方案。
人类生活由各种问题组成,这些问题是动态的、多参数的和复杂的。每一个问题都需要遵循不同的步骤来做出最终决定,如果有一个以上的选择,就需要进行优化。因此,多目标优化,一个为问题寻找最佳解决方案的过程,在最近几年变得很流行(Zaroliagis和Christos,2005;Botte和Schöbel,2019)。许多问题涉及连续变化的属性,需要从许多可用的解决方案中找到一个最佳解决方案,这非常具有挑战性。例如,预订航班或酒店,安排班级常规,以适应因工作人员缺席和房间不可用而产生的不断变化,在战争中部署一支军事部队等等。这些场景需要动态优化,因为决策需要根据情况经常改变。另一个例子是癌症患者的用药,其目标不仅仅是在较短的时间内治愈他们,而且要尽量减少药物的副作用(Preissner等人,2012)。这个问题还涉及到用药期间可能出现的任何新情况的风险。
在计算智能领域,解决这些动态多目标优化问题(DMOPs)的常见方法是进化方法(Azzouz, Bechikh and Said, 2017; Lam, Branke and Abbass, 2005)。然而,最近,多目标优化领域的许多科学文献显示,在使用多目标马尔科夫决策过程(MOMDP),特别是使用强化学习(RL)技术来解决问题时,出现了截然不同的视角(Lizotte和Laber,2016;Drugan等人,2017;Bamakan、Nurgaliev和Qu,2019)这种技术的主要目标之一是达到被称为帕累托最优解(POS)的解决方案集,它尽可能接近真正的帕累托最优前沿(POF)。这些技术不仅可以找到帕累托前沿的形状,而且还有助于调查和解码解决方案可能具有的有趣事实(Gopakumar等人,2018)。此外,最近多目标马尔科夫决策过程(MOMDP)不仅因其适用性,而且在解决实际的多目标问题方面也受到了极大的关注(Lizotte和Laber,2016)。为了解决MOMDP,常见的方法是使用状态、行动和奖励函数来定义RL模型。奖励函数可以是标量或矢量。然而,根据奖励假设(Sutton和Barto,2018),目标和目的可以用收到的标量信号(即奖励)的累积总和的期望值最大化来正式确定。换句话说,所产生的MOMDPs总是可以转化为具有聚合回报的单一目标MDPs。
然而,Roijers等人(2013)拒绝了Sutton的观点,质疑其在现实世界中的应用。他们提出了三种静态场景(即已知权重、未知权重和决策支持场景),作者表明其中一种或两种转换是不可能的、不可行的或不可取的。此外,就DMOPs而言,由于缺乏测试平台,该领域的研究非常少(Azzouz、Bechikh和Said,2017)。在这项研究中,通过提出一个动态多目标测试平台(即动态深海寻宝)来解决这一研究空白,这可能会引导研究人员在这一领域做进一步调查。据我所知,这是在使用DRL的动态多目标优化方面的第一项工作。此外,关于RL环境的动态多目标优化基准的必要性的论证已经确立,因为问题空间的复杂性和在合理的时间范围内找到一个解决方案是计算密集型的,如NP-hard或NP-complete问题(Plaisted,1984)。此外,还提出了一种算法,该算法主要负责在定义的动态环境中处理一个以上的目标。之后,该算法的实施被认为是根据巴西圣保罗(SP)22个地区的水质恢复力来识别和预测脆弱地区,这确保了所提算法的适用性和效率。这种实施方式打破了理论知识的界限,有助于解决实际问题。
关于实施,只考虑了基本网络,它有461个数据采集点。水体的流量测量是由圣保罗环境公司(CETESB)与圣保罗州水和能源部合作进行的。其结果是通过读取刻度来测量水体中的流量来取样。2017年,核心网络产生了约118,000个(如物理、化学、生物、生物分析和生态毒理学)数据量(Publicações e Relatórios | Águas Interiores, 2017)。这一实施也可能导致解决我们每天面临的其他一些动态的现实世界问题。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢