CAJ | 학술논문

간체로 보기 번체로 보기

折扣与无折扣MDPs:一个基于SARSA(λ)算法的实例分析
절구여무절구MDPs:일개기우SARSA(λ)산법적실례분석
Discounted and Undiscounted MDPs :a Case Study Based on SARSA (λ)Algorithms

万方数据

计算机工程与应用計算機工程與應用 계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2002年 9期 86-88 ,共3页

陈焕文%谢丽娟陳煥文%謝麗娟

진환문%사려연

激励学习%Markov决策过程%动态规划激勵學習%Markov決策過程%動態規劃
격려학습%Markov결책과정%동태규화

分析了折扣激励学习存在的问题,对MDPs的SARSA(λ)算法进行了折扣的比较实验分析,讨论了平均奖赏常量对无折扣SARSA(()算法的影响.
분석료절구격려학습존재적문제,대MDPs적SARSA(λ)산법진행료절구적비교실험분석,토론료평균장상상량대무절구SARSA(()산법적영향.