电子学报
電子學報
전자학보
ACTA ELECTRONICA SINICA
2013年
8期
1469-1473
,共5页
刘全%李瑾%傅启明%崔志明%伏玉琛
劉全%李瑾%傅啟明%崔誌明%伏玉琛
류전%리근%부계명%최지명%복옥침
多目标%自适应Sarsa(λ)%最大集合期望损失%强化学习%机器人足球
多目標%自適應Sarsa(λ)%最大集閤期望損失%彊化學習%機器人足毬
다목표%자괄응Sarsa(λ)%최대집합기망손실%강화학습%궤기인족구
multiple-goal%adaptive Sarsa(λ)%lost reward of greatest mass%reinforcement learning%robocup 2D
针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa (λ)算法。该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略。在单个目标训练的过程中,采用基于改进MSBR误差函数的Sarsa (λ)算法,并对动作选择概率函数和步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题。将该算法应用到RoboCup射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性。
針對RoboCup這一典型的多目標彊化學習問題,提齣一種基于最大集閤期望損失的多目標彊化學習算法LRGM-Sarsa (λ)算法。該算法預估各箇目標的最大集閤期望損失,在平衡各箇目標的前提下選擇最佳聯閤動作以產生最優聯閤策略。在單箇目標訓練的過程中,採用基于改進MSBR誤差函數的Sarsa (λ)算法,併對動作選擇概率函數和步長參數進行優化,解決瞭彊化學習在使用非線性函數汎化時,算法不穩定、不收斂的問題。將該算法應用到RoboCup射門跼部策略訓練中,取得瞭較好的效果,錶明該學習算法的有效性。
침대RoboCup저일전형적다목표강화학습문제,제출일충기우최대집합기망손실적다목표강화학습산법LRGM-Sarsa (λ)산법。해산법예고각개목표적최대집합기망손실,재평형각개목표적전제하선택최가연합동작이산생최우연합책략。재단개목표훈련적과정중,채용기우개진MSBR오차함수적Sarsa (λ)산법,병대동작선택개솔함수화보장삼수진행우화,해결료강화학습재사용비선성함수범화시,산법불은정、불수렴적문제。장해산법응용도RoboCup사문국부책략훈련중,취득료교호적효과,표명해학습산법적유효성。
For solving the multiple-goal problem in RoboCup ,a novel multiple-goal Reinforcement Learning algorithm , named LRGM-Sarsa (λ) ,is proposed .The algorithm estimates the lost reward of the greatest mass of every sub goal and trades off the long term reward of the sub goals to get a composite policy .In the single learning module ,B error function ,which is based on MSBR error function is proposed .B error function has guaranteed the convergence of the value prediction with the non-linear func-tion approximation .The probability funciton of selecting actions and the parameter αare also improved with respect to B error func-tion .This algorithm is applied to the training of shooting in Robocup 2D .The experimental results show that the proposed algorithm is more stable and converges faster .