计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2009年
13期
190-192,195
,共4页
因素化表示%动态贝叶斯网络%决策树%TD(λ)算法
因素化錶示%動態貝葉斯網絡%決策樹%TD(λ)算法
인소화표시%동태패협사망락%결책수%TD(λ)산법
提出一种新的基于因素法方法的TD(λ)算法.其基本思想是状态因素化表示,通过动态贝叶斯网络表示Markov决策过程(MDP)中的状态转移概率函数,结合决策树表示TD(λ)算法中的状态值函数,降低状态空间的搜索与计算复杂度,因而适用于求解大状态空间的MDPs问题,实验证明该表示方法是有效的.
提齣一種新的基于因素法方法的TD(λ)算法.其基本思想是狀態因素化錶示,通過動態貝葉斯網絡錶示Markov決策過程(MDP)中的狀態轉移概率函數,結閤決策樹錶示TD(λ)算法中的狀態值函數,降低狀態空間的搜索與計算複雜度,因而適用于求解大狀態空間的MDPs問題,實驗證明該錶示方法是有效的.
제출일충신적기우인소법방법적TD(λ)산법.기기본사상시상태인소화표시,통과동태패협사망락표시Markov결책과정(MDP)중적상태전이개솔함수,결합결책수표시TD(λ)산법중적상태치함수,강저상태공간적수색여계산복잡도,인이괄용우구해대상태공간적MDPs문제,실험증명해표시방법시유효적.