计算机应用研究
計算機應用研究
계산궤응용연구
APPLICATION RESEARCH OF COMPUTERS
2013年
1期
199-201
,共3页
王军红%江虹%黄玉清%伍晓利
王軍紅%江虹%黃玉清%伍曉利
왕군홍%강홍%황옥청%오효리
路径规划%强化学习%随机扰动%传感器探测信息不确定性
路徑規劃%彊化學習%隨機擾動%傳感器探測信息不確定性
로경규화%강화학습%수궤우동%전감기탐측신식불학정성
基于kNN-Sarsa(λ)强化学习的机器人路径规划方法虽然收敛速度快,但该算法容易陷入局部最优值,且未考虑环境信息的不完全可观测性.为此,设计了一种随机扰动(random perturbation) kNN-Sarsa(λ)强化学习算法,利用Bayesian规则对传感器探测信息的不确定性进行了处理,建立了基于栅格地图的仿真环境模型.仿真实验结果表明,该方法不仅收敛性好,能有效缓解kNN-Sarsa(λ)算法易陷入局部最优的现象,且在传感器探测信息不确定的情况下仍能搜索到最优路径.
基于kNN-Sarsa(λ)彊化學習的機器人路徑規劃方法雖然收斂速度快,但該算法容易陷入跼部最優值,且未攷慮環境信息的不完全可觀測性.為此,設計瞭一種隨機擾動(random perturbation) kNN-Sarsa(λ)彊化學習算法,利用Bayesian規則對傳感器探測信息的不確定性進行瞭處理,建立瞭基于柵格地圖的倣真環境模型.倣真實驗結果錶明,該方法不僅收斂性好,能有效緩解kNN-Sarsa(λ)算法易陷入跼部最優的現象,且在傳感器探測信息不確定的情況下仍能搜索到最優路徑.
기우kNN-Sarsa(λ)강화학습적궤기인로경규화방법수연수렴속도쾌,단해산법용역함입국부최우치,차미고필배경신식적불완전가관측성.위차,설계료일충수궤우동(random perturbation) kNN-Sarsa(λ)강화학습산법,이용Bayesian규칙대전감기탐측신식적불학정성진행료처리,건립료기우책격지도적방진배경모형.방진실험결과표명,해방법불부수렴성호,능유효완해kNN-Sarsa(λ)산법역함입국부최우적현상,차재전감기탐측신식불학정적정황하잉능수색도최우로경.