计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2014年
12期
2644-2652
,共9页
张汝波%唐平鹏%杨歌%李雪耀%史长亭
張汝波%唐平鵬%楊歌%李雪耀%史長亭
장여파%당평붕%양가%리설요%사장정
水面无人艇%复杂海况%Sarsa在线策略强化学习%自适应危险规避决策过程%渐进贪心策略
水麵無人艇%複雜海況%Sarsa在線策略彊化學習%自適應危險規避決策過程%漸進貪心策略
수면무인정%복잡해황%Sarsa재선책략강화학습%자괄응위험규피결책과정%점진탐심책략
unmanned surface vehicle (USV)%complicated sea-state%Sarsa on-policy reinforcement learning%adaptive obstacle avoidance decision process%greedy in the limit and infinite exploration (GLIE)
水面无人艇(unmanned surface vehicle,USV)是一种重要的海洋自主机器人,当前正被广泛研究并逐渐应用于实际.然而USV的安全航行问题仍严重制约其自主性能的提高,尤其是在复杂海况下的危险规避问题亟待解决.以Sarsa在线策略强化学习算法为基础,提出了USV在复杂海况下的自适应危险规避决策模型,并以渐进贪心策略作为行为探索策略,证明了USV自适应危险规避决策过程能够以概率1收敛到最优行为策略.论证结果表明,采用在线策略强化学习算法提升USV在复杂海况下的危险规避性能是可行的.
水麵無人艇(unmanned surface vehicle,USV)是一種重要的海洋自主機器人,噹前正被廣汎研究併逐漸應用于實際.然而USV的安全航行問題仍嚴重製約其自主性能的提高,尤其是在複雜海況下的危險規避問題亟待解決.以Sarsa在線策略彊化學習算法為基礎,提齣瞭USV在複雜海況下的自適應危險規避決策模型,併以漸進貪心策略作為行為探索策略,證明瞭USV自適應危險規避決策過程能夠以概率1收斂到最優行為策略.論證結果錶明,採用在線策略彊化學習算法提升USV在複雜海況下的危險規避性能是可行的.
수면무인정(unmanned surface vehicle,USV)시일충중요적해양자주궤기인,당전정피엄범연구병축점응용우실제.연이USV적안전항행문제잉엄중제약기자주성능적제고,우기시재복잡해황하적위험규피문제극대해결.이Sarsa재선책략강화학습산법위기출,제출료USV재복잡해황하적자괄응위험규피결책모형,병이점진탐심책략작위행위탐색책략,증명료USV자괄응위험규피결책과정능구이개솔1수렴도최우행위책략.론증결과표명,채용재선책략강화학습산법제승USV재복잡해황하적위험규피성능시가행적.