控制理论与应用
控製理論與應用
공제이론여응용
CONTROL THEORY & APPLICATIONS
2012年
12期
1623-1628
,共6页
移动机器人%强化学习%人工势能场%路径规划%Q值初始化
移動機器人%彊化學習%人工勢能場%路徑規劃%Q值初始化
이동궤기인%강화학습%인공세능장%로경규화%Q치초시화
针对现有机器人路径规划强化学习算法收敛速度慢的问题,提出了一种基于人工势能场的移动机器人强化学习初始化方法.将机器人工作环境虚拟化为一个人工势能场,利用先验知识确定场中每点的势能值,它代表最优策略可获得的最大累积回报.例如障碍物区域势能值为零,目标点的势能值为全局最大.然后定义Q初始值为当前点的立即回报加上后继点的最大折算累积回报.改进算法通过Q值初始化,使得学习过程收敛速度更快,收敛过程更稳定.最后利用机器人在栅格地图中的路径对所提出的改进算法进行验证,结果表明该方法提高了初始阶段的学习效率,改善了算法性能.
針對現有機器人路徑規劃彊化學習算法收斂速度慢的問題,提齣瞭一種基于人工勢能場的移動機器人彊化學習初始化方法.將機器人工作環境虛擬化為一箇人工勢能場,利用先驗知識確定場中每點的勢能值,它代錶最優策略可穫得的最大纍積迴報.例如障礙物區域勢能值為零,目標點的勢能值為全跼最大.然後定義Q初始值為噹前點的立即迴報加上後繼點的最大摺算纍積迴報.改進算法通過Q值初始化,使得學習過程收斂速度更快,收斂過程更穩定.最後利用機器人在柵格地圖中的路徑對所提齣的改進算法進行驗證,結果錶明該方法提高瞭初始階段的學習效率,改善瞭算法性能.
침대현유궤기인로경규화강화학습산법수렴속도만적문제,제출료일충기우인공세능장적이동궤기인강화학습초시화방법.장궤기인공작배경허의화위일개인공세능장,이용선험지식학정장중매점적세능치,타대표최우책략가획득적최대루적회보.례여장애물구역세능치위령,목표점적세능치위전국최대.연후정의Q초시치위당전점적립즉회보가상후계점적최대절산루적회보.개진산법통과Q치초시화,사득학습과정수렴속도경쾌,수렴과정경은정.최후이용궤기인재책격지도중적로경대소제출적개진산법진행험증,결과표명해방법제고료초시계단적학습효솔,개선료산법성능.