计算机学报
計算機學報
계산궤학보
CHINESE JOURNAL OF COMPUTERS
2014年
3期
677-686
,共10页
傅启明%刘全%王辉%肖飞%于俊%李娇
傅啟明%劉全%王輝%肖飛%于俊%李嬌
부계명%류전%왕휘%초비%우준%리교
强化学习%函数逼近%离策略%Q(λ)算法%机器学习
彊化學習%函數逼近%離策略%Q(λ)算法%機器學習
강화학습%함수핍근%리책략%Q(λ)산법%궤기학습
reinforcement learning%function approximation%gradient descent%Q(λ) algorithm%machine learning
将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点.针对传统的基于查词表及函数逼近的Q(λ)学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题,提出一种基于线性函数逼近的离策略Q(λ)算法.该算法通过引入重要性关联因子,在迭代次数逐步增长的过程中,使得在策略与离策略相统一,确保算法的收敛性.同时在保证在策略与离策略的样本数据一致性的前提下,对算法的收敛性给予理论证明.将文中提出的算法用于Baird反例、Mountain-Car及Random Walk仿真平台,实验结果表明,该算法与传统的基于函数逼近的离策略算法相比,具有较好的收敛性;与传统的基于查询表的算法相比,具有更快的收敛速度,且对于状态空间的增长具有较强的鲁棒性.
將函數逼近用于彊化學習是目前機器學習領域的一箇新的研究熱點.針對傳統的基于查詞錶及函數逼近的Q(λ)學習算法在大規模狀態空間中收斂速度慢或者無法收斂的問題,提齣一種基于線性函數逼近的離策略Q(λ)算法.該算法通過引入重要性關聯因子,在迭代次數逐步增長的過程中,使得在策略與離策略相統一,確保算法的收斂性.同時在保證在策略與離策略的樣本數據一緻性的前提下,對算法的收斂性給予理論證明.將文中提齣的算法用于Baird反例、Mountain-Car及Random Walk倣真平檯,實驗結果錶明,該算法與傳統的基于函數逼近的離策略算法相比,具有較好的收斂性;與傳統的基于查詢錶的算法相比,具有更快的收斂速度,且對于狀態空間的增長具有較彊的魯棒性.
장함수핍근용우강화학습시목전궤기학습영역적일개신적연구열점.침대전통적기우사사표급함수핍근적Q(λ)학습산법재대규모상태공간중수렴속도만혹자무법수렴적문제,제출일충기우선성함수핍근적리책략Q(λ)산법.해산법통과인입중요성관련인자,재질대차수축보증장적과정중,사득재책략여리책략상통일,학보산법적수렴성.동시재보증재책략여리책략적양본수거일치성적전제하,대산법적수렴성급여이론증명.장문중제출적산법용우Baird반례、Mountain-Car급Random Walk방진평태,실험결과표명,해산법여전통적기우함수핍근적리책략산법상비,구유교호적수렴성;여전통적기우사순표적산법상비,구유경쾌적수렴속도,차대우상태공간적증장구유교강적로봉성.