北京理工大学学报
北京理工大學學報
북경리공대학학보
JOURNAL OF BEIJING INSTITUTE OF TECHNOLOGY
2002年
3期
325-327
,共3页
强化学习%Markov决策过程%SARSA学习%规划
彊化學習%Markov決策過程%SARSA學習%規劃
강화학습%Markov결책과정%SARSA학습%규화
提出一种新的集成规划的SARSA(λ)强化学习算法.该算法的主要思想是充分利用已有的经验数据,在无模型学习的同时估计系统模型,每进行一次无模型学习的试验后,利用模型在所记忆的状态/行动对组成的表中进行规划,同时利用该表给出了在学习和规划之间的量化折中参考.实验结果表明,本算法比单纯的无模型学习SARSA(λ)算法有效.
提齣一種新的集成規劃的SARSA(λ)彊化學習算法.該算法的主要思想是充分利用已有的經驗數據,在無模型學習的同時估計繫統模型,每進行一次無模型學習的試驗後,利用模型在所記憶的狀態/行動對組成的錶中進行規劃,同時利用該錶給齣瞭在學習和規劃之間的量化摺中參攷.實驗結果錶明,本算法比單純的無模型學習SARSA(λ)算法有效.
제출일충신적집성규화적SARSA(λ)강화학습산법.해산법적주요사상시충분이용이유적경험수거,재무모형학습적동시고계계통모형,매진행일차무모형학습적시험후,이용모형재소기억적상태/행동대조성적표중진행규화,동시이용해표급출료재학습화규화지간적양화절중삼고.실험결과표명,본산법비단순적무모형학습SARSA(λ)산법유효.