计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2002年
9期
86-88
,共3页
激励学习%Markov决策过程%动态规划
激勵學習%Markov決策過程%動態規劃
격려학습%Markov결책과정%동태규화
分析了折扣激励学习存在的问题,对MDPs的SARSA(λ)算法进行了折扣的比较实验分析,讨论了平均奖赏常量对无折扣SARSA(()算法的影响.
分析瞭摺釦激勵學習存在的問題,對MDPs的SARSA(λ)算法進行瞭摺釦的比較實驗分析,討論瞭平均獎賞常量對無摺釦SARSA(()算法的影響.
분석료절구격려학습존재적문제,대MDPs적SARSA(λ)산법진행료절구적비교실험분석,토론료평균장상상량대무절구SARSA(()산법적영향.