一种车载服务的快速深度Q学习网络边云迁移策略
一种车载服务的快速深度Q学习网络边云迁移策略彭 军① 王成龙① 蒋 富*① 顾 欣② 牟玥玥① 刘伟荣①
①(中南大学计算机学院 长沙 410083)
②(中南大学自动化学院 长沙 410083)
摘 要:智能网联交通系统中车载用户的高速移动,不可避免地造成了数据在边缘服务器之间频繁迁移,产生了额外的通信回传时延,对边缘服务器的实时计算服务带来了巨大的挑战。为此,该文提出一种基于车辆运动轨迹的快速深度Q学习网络(DQN-TP)边云迁移策略,实现数据迁移的离线评估和在线决策。车载决策神经网络实时获取接入的边缘服务器网络状态和通信回传时延,根据车辆的运动轨迹进行虚拟机或任务迁移的决策,同时将实时的决策信息和获取的边缘服务器网络状态信息发送到云端的经验回放池中;评估神经网络在云端读取经验回放池中的相关信息进行网络参数的优化训练,定时更新车载决策神经网络的权值,实现在线决策的优化。最后仿真验证了所提算法与虚拟机迁移算法和任务迁移算法相比能有效地降低时延。
关键词:智能网联交通系统;虚拟机迁移;强化学习;深度Q学习网络
1 引言
智能网联交通系统是一种集成了人工智能、传感技术、网络技术、自动控制技术及物联网等多项技术的交通信息智能决策调度系统。智能网联交通系统通过车辆、车路、基础设施、周边交通环境等多方信息的采集与交互,增强了车辆自身感知能力,为各类数据的综合分析与实时处理创造了可能。同时它融合了云计算与移动边缘计算的技术优势,为行驶的车辆提供强大的感知计算能力,为自动驾驶与无人驾驶的落地提供有力支撑。但一直以来,交通系统环境的复杂性与车载用户的移动性成为制约其发展的一大瓶颈。车辆在边缘服务器之间的移动会不可避免地造成数据频繁迁移,从而产生额外的数据迁移时延,这给边缘服务器的实时计算服务带来了巨大的挑战。
近年来,为处理上述问题,国内外学者分别基于任务迁移和虚拟机迁移两种方式提出了不同解决方案。任务迁移是一种通过后向回传链路使任务在车载用户移动过程中不中断处理的方式,而虚拟机迁移是直接将处理任务的虚拟机迁移来保证任务的处理。在任务迁移方面,文献设计了一种基于遗传算法的任务迁移方法,一方面有效降低移动设备的能耗,另一方面保证了任务能及时处理,降低了任务迁移过程中的延时。文献综合考虑了用户移动设备的电池性能,提出了一种基于深度强化学习的计算卸载方法用于减少用户的延时和移动设备的能量消耗。文献提出了一种将任务从移动设备迁移到远程服务器的任务迁移决策算法,通过将任务迁移到多个服务器联合处理降低任务的处理时间。但基于任务迁移的方式随着车载用户远离,通信的回传链路会越来越长产生额外的延时。为克服任务迁移的缺点,文献给出了一种基于已知路径的虚拟机迁移算法。使用该算法可以提前将虚拟机迁移到预定位置,减少大量的传输延时。文献分析了由网络链路拥塞引起的用户服务质量下降。并设计了一种虚拟机迁移策略以避免拥塞。但基于虚拟机迁移的方法迁移虚拟机会占用大量的带宽,当任务负载很大的时候带来额外的排队延时。
虽然这些方案都能在一定程度上降低时延,而且这些方案大部分是离线的方法,不能根据真实环境实时地做出决策。因此,本文从保证边缘服务器的实时计算服务出发,提出了一种基于车辆运动轨迹的快速深度Q学习网络(Deep Q-learning Networks,DQN)边云迁移策略,将一个连续的车辆运行轨迹离散化为一系列的决策周期。在每个决策周期内,根据实时的边缘服务器网络状态和通信回传时延在任务迁移或虚拟机迁移这两种方法中作出决策,本文更加具体的贡献可以概括如下:
(1) 本文提出了一种基于车辆运动轨迹的快速深度Q学习网络(Deep Q-learning Networks for Trajectory Process, DQN-TP)强化学习算法。提出的算法在每个决策周期根据当前边缘服务器网络状态信息,从虚拟机迁移和任务迁移中选择一个方法执行迁移决策。并在仿真中与任务迁移算法和虚拟机迁移算法比较,验证了所提算法的优越性。
(2) 本文将决策和评估神经网络分离,车载决策神经网络根据用户实时获取的边缘服务器网络状态参数和时延进行决策,同时把决策记录信息发送到云端;云端评估神经网络根据车载用户上传的决策信息进行训练,并将训练的网络参数更新到车载决策神经网络,实现评估和决策过程同时进行,增强算法实时性。
本文其余的部分组织如下,第2节介绍了本文的系统框架和模型,第3节分析了本文所提DQN-TP算法,第4节是本文的仿真结果分析,第5节给出了本文的结论。
2 系统框架和模型建立
如图1所示,车载用户通过接入路旁单元(Road Side Unit, RSU)卸载任务,同时随着车载用户离开RSU的覆盖范围,车载用户切换边缘服务器。每个RSU都配备一个小型的边缘服务器用于提供服务,边缘服务器之间可以通过后向回传网络(backhaul network)进行通信,每个边缘服务器同时也与中央云服务器相连支持远程调度。当车载用户卸载任务到边缘服务器时,边缘服务器会根据用户卸载的任务生成虚拟机去处理和执行任务。每个车载用户都配备一个车载决策神经网络用于实时决策,同时会将决策记录作为经验上传到云端,云端通过经验训练神经网络,每隔一段时间将训练得更加完备的神经网络反馈到车载神经网络中。
本文所用到的变量如表1所示,一个车载用户在一段时间内的行车轨迹可以被离散化为一系列的决策周期,且每个决策周期的时间长度为 σ。在决策周期t 车载用户的位置可以由二元组ν t表示。假定区域内有i个边缘服务器并用集合M 表示,与车载用户相似,使用二元组µ m表示第m个 (m∈M) 边缘服务器所在的位置。r m代 表边缘服务器 m的覆盖范围。
由车载用户的位置和边缘服务器的位置,可以得到二者间的距离公式为
图 1 智能网联交通系统结构示意图
表 1 变量表
对于给定周期t ,车载用户以概率α 产生任务请求q 。对于每个任务都有两个关键参数,分别是任务的大小 qs和 任务所能容忍最大延时q d。每一个任务产生后会加入处理等待队列,处理原则遵循先入先出(FIFO)原则。处理方式可以被分为任务迁移处理和虚拟机迁移处理两种。
任务迁移的处理流程如下:当车载用户离开当前边缘服务器覆盖范围时,车载用户会在当前区域所有可接入的边缘服务器中选择一个服务器建立连接,被选中的服务器接到车载用户提交的新请求后会向中央云服务器查询负责处理该用户服务的虚拟机的源边缘服务器位置,并把车载用户请求通过后向回传网络转交给源边缘服务器。任务迁移只做用户任务处理请求的转交,因此方法简单迁移量小,但随着车载用户远离源边缘服务器,转交任务的通信链路会变长,因而会带来额外的时延。
首先为了验证所提算法的收敛性,在图2中给出了损失函数随着训练周期变化的函数关系。从图2中可以看到,由于一开始的网络参数是随机初始化的,不能很好拟合真实的动作-状态值函数,所以损失很大,但随着训练周期的增加,损失函数逐渐减小并收敛,大约在第1200周期时,损失函数的值小于1。这说明随着训练的进行,所提算法通过损失函数逐步优化神经网络参数,逼近真实的动作-状态值函数。
表 3 仿真参数设定
图 2 DQN-TP的收敛性
3种算法的性能随着任务产生的概率变化趋势在图3中给出,任务产生概率的大小代表了任务数量的多少。3种算法的总时延比较如图3(a)所示,没做虚拟机迁移的ST-Only算法随着任务产生概率的增加延时会越来越高,其原因一方面是任务负载变大不可避免地造成算法性能下降,另一方面随着用户的移动,车载用户距离源服务器越来越远导致回传链路的长度越来越长,导致延时大幅地增加,而执行了虚拟机迁移的VMM-Only算法和DQN-TP算法通过将虚拟机迁移到邻近用户侧的边缘服务器处理就能很好地降低通信回传时延。可以看到VMM-Only算法和DQN-TP算法不管是在低任务负载的情况下还是在高任务负载的情况下都有较低的延时。对于VMM-Only算法来说,并不是每次虚拟机迁移都是有必要的,在任务负载较高时,每次都迁移虚拟机会带来大量的排队延时,因此随着任务负载的变大,算法性能退化严重。而本文提出的DQN-TP算法本质上是一种方法的选择,它会通过学习的方式判断什么时候执行任务迁移或虚拟机迁移并只在必要的时候才会迁移虚拟机,因此DQN-TP算法能获得更低的延时。
图3(b)展示的是3种算法在迁移量方面的性能比较。ST-Only算法由于不用将相对较大虚拟机迁移,因此流量的花费相比其他算法较小。VMM-Only算法相对于只做任务迁移ST-Only确实会有更多的迁移量开销,但这些开销对于降低时延提升服务质量是必要的。但相比起同样迁移了虚拟机的VMMOnly算法,DQN-TP能减少大量的迁移量。这表明所提出的DQN-TP算法能在保证服务质量的前提下尽可能地减少的迁移虚拟机,只在必要时迁移虚拟机,减少后向回传网络的流量负担。
图 3 DQN-TP算法与其他迁移算法性能分析
5 结论
本文所提DQN-TP算法对现有方案从保证算法实时性和降低时延两方面进行改进。在算法实时性上,本文将DQN网络中的决策神经网络和评估神经网络分离,根据车辆的运动轨迹进行虚拟机或任务迁移的决策,评估神经网络在云端读取经验回放池中的相关信息进行网络参数的优化训练,定时更新车载决策神经网络的权值,实现在线决策的优化;在降低时延上,本文综合虚拟机迁移和任务迁移两种方法,根据用户给定环境信息进行智能决策,只在必要时迁移虚拟机,降低了网络时延和网络资源消耗。最后经过仿真验证,与只进行任务迁移的ST-Only算法和只进行虚拟机迁移的算法VMM-Only相比都能获得最低的延时和相对较少的迁移量,并在总体性能上优于其他算法。
参 考 文 献
ZHU Li, YU F R, WANG Yige, et al. Big data analytics in intelligent transportation systems: A survey. IEEE Transactions on Intelligent Transportation Systems, 2019,20(1): 383–398. doi: 10.1109/TITS.2018.2815678.
D’OREY P M and FERREIRA M. ITS for sustainable mobility: A survey on applications and impact assessment tools. IEEE Transactions on Intelligent Transportation Systems, 2014, 15(2): 477–493. doi: 10.1109/TITS.2013.2287257.
彭军, 马东, 刘凯阳, 等. 基于LTE D2D技术的车联网通信架构与数据分发策略研究. 通信学报, 2016, 37(7): 62–70. doi:10.11959/j.issn.1000-436x.2016134.PENG Jun, MA Dong, LIU Kaiyang, et al. LTE D2D based vehicle networking communication architecture and data distributing strategy. Journal on Communications, 2016,37(7): 62–70. doi: 10.11959/j.issn.1000-436x.2016134.
GAO Kai, HAN Farong, DONG Pingping, et al. Connected vehicle as a mobile sensor for real time queue length at signalized intersections. Sensors, 2019, 19(9): 2059. doi:10.3390/s19092059.
KONG Yue, ZHANG Yikun, WANG Yichuan, et al. Energy saving strategy for task migration based on genetic algorithm. 2018 International Conference on Networking and Network Applications, Xi’an, China, 2018: 330–336.
CHEN Xianfu, ZHANG Honggang, WU C, et al. Optimized computation offloading performance in virtual edge computing systems via deep reinforcement learning. IEEE Internet of Things Journal, 2019, 6(3): 4005–4018. doi:10.1109/JIOT.2018.2876279.
SAHA S and HASAN M S. Effective task migration to reduce execution time in mobile cloud computing. The 23rd International Conference on Automation and Computing, Huddersfield, UK, 2017: 1–5.
GONÇALVES D, VELASQUEZ K, CURADO M, et al.Proactive virtual machine migration in fog environments.2018 IEEE Symposium on Computers and Communications,Natal, Brazil, 2018: 742–745.
KIKUCHI J, WU C, JI Yusheng, et al. Mobile edge computing based VM migration for QoS improvement.The 6th IEEE Global Conference on Consumer Electronics,Nagoya, Japan, 2017: 1–5.
CHOWDHURY M, STEINBACH E, KELLERER W, et al.Context-Aware task migration for HART-Centric collaboration over FiWi based tactile internet infrastructures. IEEE Transactions on Parallel and Distributed Systems, 2018, 29(6): 1231–1246. doi: 10.1109/TPDS.2018.2791406.
LU Wei, MENG Xianyu, and GUO Guanfei. Fast service migration method based on virtual machine technology for MEC. IEEE Internet of Things Journal, 2019, 6(3):4344–4354. doi: 10.1109/JIOT.2018.2884519.
WANG Yanting, SHENG Min, WANG Xijun, et al. Mobileedge computing: Partial computation offloading using dynamic voltage scaling. IEEE Transactions on Communications, 2016, 64(10): 4268–4282. doi: 10.1109/TCOMM.2016.2599530.
SUTTON R S and BARTO A G. Reinforcement Learning:An Introduction. Cambridge: MIT Press, 1998: 25–42.
SNIA trace data. http://iotta.snia.org/traces, 2018.
A Fast Deep Q-learning Network Edge Cloud Migration Strategy for Vehicular Service
PENG Jun① WANG Chenglong① JIANG Fu① GU Xin②
MU Yueyue① LIU Weirong①
①(School of Computer Science and Engineering, Central South University, Changsha 410083, China)
②(School of Automation, Central South University, Changsha 410083, China)
Abstract: The high-speed movement of vehicles inevitably leads to frequent data migration between edge servers and increases communication delay, which brings great challenges to the real-time computing service of edge servers. To solve this problem, a real-time reinforcement learning method based on Deep Q-learning Networks according to vehicle motion Trajectory Process (DQN-TP) is proposed. The proposed algorithm separates the decision-making process from the training process by using two neural networks. The decision neural network obtains the network state in real time according to the vehicle’s movement track and chooses the migration method in the virtual machine migration and task migration. At the same time, the decision neural network uploads the decision records to the memory replay pool in the cloud. The evaluation neural network in the cloud trains with the records in the memory replay pool and periodically updates the parameters to the on-board decision neural network. In this way, training and decision-making can be carried out simultaneously. At last, a large number of simulation experiments show that the proposed algorithm can effectively reduce the latency compared with the existing methods of task migration and virtual machine migration.
Key words: Intelligent transportation system; Virtual machine migration; Reinforcement learning; Deep Qlearning Networks(DQN)
中图分类号:TN929.52
文献标识码:A
文章编号:1009-5896(2020)01-0058-07
DOI: 10.11999/JEIT190612
收稿日期:2019-08-12;改回日期:2019-11-04;网络出版:2019-11-12
*通信作者: 蒋富 jiangfu0912@csu.edu.cn
基金项目:国家自然科学基金(61873353, 61672539)
Foundation Items: The National Natural Science Foundation of China(61873353, 61672539)
彭 军:女,1967年生,教授,研究方向为智能交通网络通信与安全控制、移动云服务、机器学习、智慧新能源管理.
王成龙:男,1996年生,博士生,研究方向为车联网、智能交通网络通信、机器学习.
蒋 富:男,1983年生,副教授,研究方向为无线通信与移动网络、绿色认知无线传感器网络、协同通信、网络空间安全.
顾 欣:女,1993年生,博士生,研究方向为无线网络优化、车联网通信技术.
牟玥玥:女,1996年生,硕士生,研究方向为图像处理、无线通信.
刘伟荣:男,1976年生,教授,研究方向为物联网、协同通信、CPS系统、云机器人情景感知.
页:
[1]