计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2006年
3期
147-150
,共4页
陈圣磊%吴慧中%韩祥兰%肖亮
陳聖磊%吳慧中%韓祥蘭%肖亮
진골뢰%오혜중%한상란%초량
强化学习%MQ算法%Q学习%Q(λ)算法
彊化學習%MQ算法%Q學習%Q(λ)算法
강화학습%MQ산법%Q학습%Q(λ)산법
Q学习是一种重要的强化学习算法.本文针对Q学习和Q(λ)算法的不足,提出了一种具有多步预见能力的Q学习方法:MQ方法.首先给出了MDP模型,在分析Q学习和Q(λ)算法的基础上给出了MQ算法的推导过程,并分析了算法的更新策略和k值的确定原则.通过悬崖步行仿真试验验证了该算法的有效性.理论分析和数值试验均表明,该算法具有较强的预见能力,同时能降低计算复杂度,是一种有效平衡更新速度和复杂度的强化学习方法.
Q學習是一種重要的彊化學習算法.本文針對Q學習和Q(λ)算法的不足,提齣瞭一種具有多步預見能力的Q學習方法:MQ方法.首先給齣瞭MDP模型,在分析Q學習和Q(λ)算法的基礎上給齣瞭MQ算法的推導過程,併分析瞭算法的更新策略和k值的確定原則.通過懸崖步行倣真試驗驗證瞭該算法的有效性.理論分析和數值試驗均錶明,該算法具有較彊的預見能力,同時能降低計算複雜度,是一種有效平衡更新速度和複雜度的彊化學習方法.
Q학습시일충중요적강화학습산법.본문침대Q학습화Q(λ)산법적불족,제출료일충구유다보예견능력적Q학습방법:MQ방법.수선급출료MDP모형,재분석Q학습화Q(λ)산법적기출상급출료MQ산법적추도과정,병분석료산법적경신책략화k치적학정원칙.통과현애보행방진시험험증료해산법적유효성.이론분석화수치시험균표명,해산법구유교강적예견능력,동시능강저계산복잡도,시일충유효평형경신속도화복잡도적강화학습방법.