计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2014年
3期
548-558
,共11页
朱斐%刘全%傅启明%伏玉琛
硃斐%劉全%傅啟明%伏玉琛
주비%류전%부계명%복옥침
强化学习%行动者-评论家算法%连续动作空间%最小二乘法%小车平衡杆问题%mountain car问题
彊化學習%行動者-評論傢算法%連續動作空間%最小二乘法%小車平衡桿問題%mountain car問題
강화학습%행동자-평론가산법%련속동작공간%최소이승법%소차평형간문제%mountain car문제
reinforcement learning%actor-critic algorithm%continuous action space%least squares method%cart pole balancing%mountain car
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者-评论家方法(least square actor-critic algorithm,LSAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将LSAC算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Caela(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor-critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能.
解決具有連續動作空間的問題是噹前彊化學習領域的一箇研究熱點和難點.在處理這類問題時,傳統的彊化學習算法通常利用先驗信息對連續動作空間進行離散化處理,然後再求解最優策略.然而,在很多實際應用中,由于缺乏用于離散化處理的先驗信息,算法效果會變差甚至算法失效.針對這類問題,提齣瞭一種最小二乘行動者-評論傢方法(least square actor-critic algorithm,LSAC),使用函數逼近器近似錶示值函數及策略,利用最小二乘法在線動態求解近似值函數參數及近似策略參數,以近似值函數作為評論傢指導近似策略參數的求解.將LSAC算法用于解決經典的具有連續動作空間的小車平衡桿問題和mountain car問題,併與Caela(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor-critic)算法進行比較.結果錶明,LSAC算法能有效地解決連續動作空間問題,併具有較優的執行性能.
해결구유련속동작공간적문제시당전강화학습영역적일개연구열점화난점.재처리저류문제시,전통적강화학습산법통상이용선험신식대련속동작공간진행리산화처리,연후재구해최우책략.연이,재흔다실제응용중,유우결핍용우리산화처리적선험신식,산법효과회변차심지산법실효.침대저류문제,제출료일충최소이승행동자-평론가방법(least square actor-critic algorithm,LSAC),사용함수핍근기근사표시치함수급책략,이용최소이승법재선동태구해근사치함수삼수급근사책략삼수,이근사치함수작위평론가지도근사책략삼수적구해.장LSAC산법용우해결경전적구유련속동작공간적소차평형간문제화mountain car문제,병여Caela(continuous actor-critic learning automaton)산법화eNAC(episodic natural actor-critic)산법진행비교.결과표명,LSAC산법능유효지해결련속동작공간문제,병구유교우적집행성능.