计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2008年
10期
1763-1768
,共6页
部分可观察Markov决策%决策算法%智能体%值迭代%策略迭代
部分可觀察Markov決策%決策算法%智能體%值迭代%策略迭代
부분가관찰Markov결책%결책산법%지능체%치질대%책략질대
部分可观察Markov决策过程是通过引入信念状态空间将非Markov链问题转化为Markov链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支.介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和值迭代的部分可观察Markov决策算法,该算法利用线性规划和动态规划的思想,解决当信念状态空间较大时出现的"维数灾"问题,得到Markov决策的逼近最优解.实验数据表明该算法是可行的和有效的.
部分可觀察Markov決策過程是通過引入信唸狀態空間將非Markov鏈問題轉化為Markov鏈問題來求解,其描述真實世界的特性使它成為研究隨機決策過程的重要分支.介紹瞭部分可觀察Markov決策過程的基本原理和決策過程,提齣一種基于策略迭代和值迭代的部分可觀察Markov決策算法,該算法利用線性規劃和動態規劃的思想,解決噹信唸狀態空間較大時齣現的"維數災"問題,得到Markov決策的逼近最優解.實驗數據錶明該算法是可行的和有效的.
부분가관찰Markov결책과정시통과인입신념상태공간장비Markov련문제전화위Markov련문제래구해,기묘술진실세계적특성사타성위연구수궤결책과정적중요분지.개소료부분가관찰Markov결책과정적기본원리화결책과정,제출일충기우책략질대화치질대적부분가관찰Markov결책산법,해산법이용선성규화화동태규화적사상,해결당신념상태공간교대시출현적"유수재"문제,득도Markov결책적핍근최우해.실험수거표명해산법시가행적화유효적.