<rt id="uq6og"></rt>
  • <u id="uq6og"><option id="uq6og"></option></u>
  • <source id="uq6og"></source>
    <source id="uq6og"></source>
  • <label id="uq6og"><div id="uq6og"></div></label>
    <li id="uq6og"><menu id="uq6og"></menu></li>
  • <s id="uq6og"><center id="uq6og"></center></s>

    全国诚招合伙人

    咨询热线:0371—61312101

    智慧用电-智慧消防-智慧供配电全系列产品 携手力安 共创财富

    引用本文:牛浩玉,汤文兵,田锦.基于深度强化学习的智能体在智慧消防中的应用研究[J].通信技术,2019, 52 ( 10) : 2567-2572.



    摘 要

    消防直接关系到人民的生命财产安全。针对在火灾发生时因救援环境复杂导致被困人员 搜救困难的问题,提出了一种基于深度强化学习的智能体在消防场景中的目标识别和路径规划算法。通过将强化学习算法与卷积神经网络相融合,赋予智能体一定的自主判断、规划分析和目标 识别能力。以公共环境中的移动智能体开发应用为背景,针对消防中存在的问题,对智能体在火 灾发生前期实现可靠的路径规划和目标识别问题进行深入的应用研究。

    关键词:智慧消防;深度强化学习;智能体;路径规划;目标识别
    内容目录


    0 引 言 

    1 系统总体结构图

    2 深度强化学习

    2.1 强化学习

    2.2 深度强化学习

    2.3 智能体在消防中的路径规划算法

    2.3.1 状态空间设计

    2.3.2 动作空间设计

    2.3.3 路径规划算法参数的设计

    3 实验与分析

    3.1 仿真与实验

    3.2 结果分析


    4 结 语


    引 言


    随着人工智能技术的深入研究,人工智能赋 能消防的研究进入了一个崭新的阶段。面对场景复杂的公共场所,传统的消防从火源的发现到火灾的处置,再到被困人员的搜救,都是由人来完成的。这可能造成被困人员位置不明确、搜救耗时较长等 一系列问题。因此,对消防过程的自主性和未知空 间的探索提出了新的挑战E。在公共场所发生火灾 突发事件时,智能体如何快速识别被困人员,并根 据过往经验为消防救援人员提供一个合理的救援路 线,是公共安全领域中急需解决的问题。

    面对上述消防难题,构建图像识别与路径规 划于一体的智能体,是解决此类基于视觉感知控制 任务的关键。在图像识别方法中,卷积神经网络有 着出色的表现。卷积神经网络通过卷积层对输入的 视频图像数据进行特征提取,输出的特征图会传递 到池化层进行特征选择和信息过滤。而在为救援 人员提供合理的救援路线方法中,路径规划算法是 核心,直接影响救援结果。传统运动规划方法是智 能体依据人们预先设定的规则实现路径规划,而当 遇到动态未知环境时,此类方法由于灵活性不强而 难以适应复杂环境。

    因此,使用深度强化学习方法 对未知环境进行路径规划是本文研究的重点。本 文将卷积神经网络与强化学习算法结合应用于消防 中,用来实现被困人员的查找和为救援人员提供合 理的救援路线,提高消防人员在救援过程中的效率, 且灵活性更强。因此,将深度强化学习应用于消防 救援是解决消防难题的一个有效途径。



    系统总体结构图


    基于智能体系统在消防中的应用场景,设计了 智能体的系统总体结构,如图1所示。根据总体结 构设计的智能体系统主要有目标识别、自主路径规 划以及与外界的信息交互3个部分。此智能体结构 通过利用摄像头捕捉视频图像与环境进行交互,从 而采集不同的外部环境数据。通过随机选择并执行 动作,然后基于环境状态变化给予的反馈以及当前 环境状态选择并执行下一个动作,通过深度强化学 习算法不断与环境交互获取知识、增长经验叫当 智能体得知有火灾发生时,立即通过摄像头进行被 困人员的寻找。当发现被困人员时,立即将其所在 位置信息及根据过去学习到的经验将合理的救援路 线一并传达给外部救援人员。

    图1的系统结构就是利用智能体系统进行数据 的采集和分析,利用程序及算法对智能体进行路径 规划和被困人员的识别,通过自主学习进行决策, 传达各种信息指令操作,再重新接受新的环境信息 进行反馈,循环反复此过程回。

    image


    图1系统总体结构



    深度强化学习


    2.1 强化学习

    强化学习的学习过程是智能体与环境进行交互 并从环境中获得反馈信息的学习过程。作为一种交 互式的学习方法,强化学习的主要特点是试错和延迟回报。图2是应用于消防背景下的强化学习的基本原理。

    强化学习任务通常用马尔科夫决策过程来 描述:智能体处于环境E中,状态空间为X,其中 每个状态图片是智能体感知到的环境的描述;智能体能采取的动作构成了动作空间&若某个动作图片作用在当前状态羽上,则潜在的转移函数戸 将使得环境从当前状态按某种概率转移到另一个状 态;在转移到另一个状态的同时,环境会根据潜在 的奖赏函数R反馈给智能体一个奖赏图片综上所述, 强化学习任务对应四元组image

    image

    图2 消防环境下的强化学习

    强化学习的目标是给定一个马尔科夫决策过程 寻找最 优策略。这里的最 优是指得到的累积奖赏最 大。所谓策略是指状态到动作的映射,策略常用符号兀表示。强化学习的策略往往是随机策略,好处是可以将探索耦合到采样过程。当定义一个策略时,即可计算累积奖赏:

    image

    是折现系数,用来计算累积回报,表示对未 来状态的重视程度。当智能体采用策略图片时,累积 回报服从一个分布,累积回报在状态S处的期望值定义为状态-动作值函数:

    image    _

    相应地,状态-行为值函数为:

    image


    2.2 深度强化学习

    消防中移动智能体对被困人员的识别可用卷积 神经网络实现。但是,对于智能体的路径规划,经 典的强化学习方法往往无法解决状态和动作空间高 维度的问题。在机器学习方法中,深度神经网络具 有表达复杂环境的能力,而经典的强化学习算法是 解决复杂决策问题的有效手段.

    因此,将两者结合 起来能够为智能体在复杂环境中的感知决策问题提 供解决思路。DQN是一种经典的深度强化学习方法。与经典的强化学习算法不同,DQN利用深度神经网 络对值函数进行逼近时,值函数的更新不更新取决 于参数。(如图3所示)。DQN利用卷积神经网络 框架拟合强化学习中的行为值函数,可以使智能体 实现真正自主学习一种甚至多种策略。

    训练神经网络时,假设训练数据独立同分布, 但是通过强化学习采集的数据之间存在关联性,如 果利用这些数据进行顺序训练,神经网络会具有不 稳定性,因此DQN使用经验回放打破数据间关联。在强化学习过程中,智能体将数据存储到一个数据 库中,再利用均匀随机采样的方法从数据库中抽取 数据,然后利用抽取的数据训练神经网络。

    image

    图3行为值函数逼近网络

    DQN使用两个结构相同但是参数不同的图片网络。第一个图片网络是用来计算智能体动作的图片值, 并选出最 大图片值的动作,计算当前动作图片值如式 (4)所示;第二个图片网络用来辅助训练目标图片值, 称为目标图片网络,计算如式(5)所示。

    image


    模型在计算智能体动作的Q网络上通过其最 大 Q值选择动作再去获取该动作在目标图片网络上的图片值。这样计算智能体动作的网络负责选择相应的 行为图片,而这个被选定的图片图片值则由目标图片网络生成。

    2.3 智能体在消防中的路径规划算法

    本文设计的基于DQN算法的移动智能体在消 防中的运动规划路径算法,如图4所示。模型中, 将CNN与图片网络结合在一起,利用CNN提取消 防场景中的视频图像特征,然后通过网络图片输出image,即智能体采取动作所获得的Q值。

    image

    图4智能体在消防场景中的路径规划算法

    智能体会根据当前的场景图像的状态采取智能 体要做的动作图片,进而根据激励函数获得一个奖励图片,且达到下一个状态图片。智能体由获得的奖励判 断该时刻选择动作的好坏,并更新值函数的网络参 数;再有下一个状态得到的奖励对自身所做动作的 好坏做出判断;循环获得奖励值,直至训练结束, 得到一个较好的值函数网络。

    本文设计的深度强化学习算法本质是智能体 在消防应用场景下的环境感知得到的状态s,通过 DQN选择动作图片且得到奖励图片,从而对智能体的运动路径规划进行优化。因此智能体状态的设计、动 作的选择以及算法参数的设计对于本文提出的运动 规划方法起到了至关重要的作用。

    2.3.1 状态空间设计

    状态空间是智能体在自身所处环境中所能获取 的感知信息的集合,在深度强化学习中为。网络 提供学习所需的信息数据。本文中基于公共消防应 用场景中的智能体,通过摄像头获取周围信息,因 此只将智能体周围的附近区域作为状态输入。因为 摄像头获取的原始图像尺寸很大,计算机在进行处 理时需要大量的计算资源,所以需要对原始图像做 缩放处理,处理后输入图像的尺寸为100x100像素。选取摄像头获取的距离当前时刻最近的3帧场 景图像做灰度化处理,并输入到卷积神经网络。最终输入的智能体所处的环境状态的图像尺寸为 100x 100x3,表述为:

    image

    其中S表示状态的集合,image表示连续 的距离当前最近的3个时刻,s,是当前时刻输入的 状态图像。

    2.3.2 动作空间设计

    动作空间是智能体根据自身状态采取的动作集 合。本文中智能体的行为策略选择的是e-greedy策 略,公式为:

    image

    图片策略基于一个概率来对探索和利 用进行折中:选取使得动作值函数最 大的概率为图片,而其他动作的概率为等概率图片图片平衡了利用和探索,其中选取动作值函数最 大的部分为利用部分,其他非最 优动作仍有概率为探索部分。智能体根据设定的参数概率选取动作模式。

    虽然深度强化学习算法模型适用于智能体采取 离散动作,而在实际场景中智能体往往需要连续的 动作做消防救援中的路径规划,但只要相邻的动作间时间间隔很短,离散动作可近似为连续动作。本文设计的智能体采取前、后、左、右4个离散动作, 用式(8)表示:

    image

    其中为智能体所能采取的运动的集合,image分别表示智能体匀速向前、后、左、右 4个方向移动。

    2.3.3 路径规划算法参数的设计

    深度强化学习的参数设计对于模型的训练结果 会产生很大影响。本文基于深度强化学习的智能体 在消防中的路径规划算法的参数如表1所示。其中, 学习率是指更新网络权重的快慢程度。学习率高, 表示算法模型学习速度快,但可能会使网络学习过 程不稳定;而学习率太低,会使网络经过很长时间 的学习才能达到收敛状态。 

    实验表明,当学习率 为0.01时,网络能很快收敛并达到最 优。折现系数 表示智能体对下一个状态的重视程度。折现系数越 小,表示智能体更关注于当前状态而很少考虑下_ 状态;折现系数越大,表示对下一状态的重视程度 更高。本实验中的智能体需要完成一系列连续动作, 因此折现系数为0.9时最合适。智能体在强化学习 时要想获得累积奖赏的最 大化,则必须在探索与利 用之间达到较好的折中。

    本文的图片基于一个 概率对探索和利用进行折中:每次尝试以0.2的概 率进行探索,以均匀概率随机选择一个动作,以0.8 的概率进行利用,即选择当前能获得最 大奖赏的动 作。神经网络隐藏层的神经单元数对数据的训练结 果有很大影响。神经单元数太多会使计算难度增加, 太少则很难全面提取数据的特征值。本文将神经单 元数调为100,能做到很好的折中。记忆池用来存 储样本数据。

    在智能体学习过程中,网络会随机从 记忆池中选取一定量的数据进行训练,本文选择记 忆池大小为200 000。智能体在每一次学习过程中 的回合更新的步数都不同,本文将初始化的学习步 数定为20。

    1深度强化学习算法中的各个参数取值

    image



    实验与分析


    3.1 仿真与实验

    为了选择最 优的价值网络模型,本文建立了 基于公共消防场景的模拟仿真环境。仿真环境和智 能体的深度强化学习模型均由python实现,其中 DQN算法基于Tensorflow、Keras以及gym平台实现。

    本文设计了一个大小为10 mx 10 m的公共消 防场景,如图5 (a)所示。左上角圆圈为安全出口, 也是每次智能体与环境交互进行经验学习的初始位 置。四周最外围的实线方框代表墙壁,灰色区域为 障碍物区域,中心的颜色区域为目标位置,初始化 的奖赏为7?=l.lo图中有几块区域虽然无明显障碍 物,但是也存在智能体不能通行的情况,因此初始 化的奖赏为R=-l,其他的移动智能体可随意运动 的区域的初始化奖赏为0。

    本文将一个l0mxl0m的消防场景虚拟成100 个小区域,每个小区域为1图片智能体在每个区域中有前、后、左、右4个可移动方向。本文设定智 能体的速度为lm/s,状态每秒迭代1次,每次迭 代智能体的平均移动距离为1 mo当智能体得知有 火情发生时,立即进入被困人员寻找过程。

    智能体 每到达一个区域就立即扫描左、前、右3个方向, 通过卷积神经网络计算是否有目标存在。若发现被 困人员,立即将人员位置信息以及从安全通道口到 被困人员位置的最 优路线一并传达给消防救援人 员;若目标不存在,则继续寻找。

    图5 (b)是智能 体从安全通道出口到某一位置的深度强化学习后获 得的路线。当火灾发生时,智能体通过摄像头在累 积奖赏最 大的阴影区域寻找到被困人员并立即上报 情况,并根据过往学习到的经验为外部消防救援人 员提供合理的救援路线,为救援节省时间,最 大程 度保证区域内人员的生命安全。

    image

    (a)初始的模拟环境

    image

    b)智能体学习后的规划路径

    5智能体路径规划

    3.2 结果分析

    基于上述消防场景的实验模拟,本实验对智能 体进行了多次回合迭代更新。智能体与环境交互时, 环境对智能体的奖赏从先前的负向奖励逐渐趋向于 正向奖励,如图6 (a)所示,表明智能体在与环境 规划中,在路径规划上获得了较好的学习结果。在 每次回合更新中,随着更新的次数增加,智能体到 达某处的更新步数逐渐收敛于一个稳定的状态,如 图6 (b)所示。

    这是智能体从消防场景中的安全出 口处到某一区域的结果,通过不断变换目标位置智 能体即可学习到达各个位置的路线。这样当智能体 在规定区域的任何位置扫描到火源或火灾中的被困 人员时,即可及时将之前学习的最合理的规划路线 传达给外部救援人员,为救援人员提供救援时间短、 路线合理的救援方案。



    image

    综上所述,通过本文提出的基于深度强化学 习的智能体在消防中的目标识别与路线规划模型 算法,智能体能够学习从安全出口到不同位置的 最 优策略,通过人工智能的方式最 大限度地节省了 救援人员的救援时间,能够有效提高消防救援的 效率。



    结 语


    本文通过分析传统消防在人工智能背景下的应 用需求,提出了一种基于深度强化学习的智能体在 消防场景下的智能决策方法。通过介绍深度强化学 习原理和智能体模型的过程设计,解决了消防中存在的部分问题。通过仿真实验的结果表明,用于消防救援的智能体随着训练迭代次数的增加不断积累学习经验,从而能够以最 优方式从起始位置运动到 目标位置,有效为救援人员提供合理的救援路线, 证实了方法的可行性。

    但是,本文的方法只适用在 火灾发生前期烟雾较少的情况下,火势较大时,因 为环境中存在大量烟雾,会导致移动智能体无法对 现场环境进行正确分析和判别凹。因此,后续将在 救援场景更为复杂的情况下,在算法的实用化方面 展开更深入的研究。


    作者简介 >>>
    牛浩玉,硕士,主要 研究方向为智慧消防、机器视觉;
    汤文兵,学士,高级 工程师,主要研究方向为计算机控制;
    田 锦,博士,教授,主要研究方向为智能交通、车载网、智慧消防。

    相关信息

    推荐产品

    联系我们

    13027617927

    1906984964

    [email protected]

    :9:30-22:30

    QR code
    奥门永利官网app_永利体育平台