CAJ | 학술논문

部分可观察Markov决策过程是通过引入信念状态空间将非Markov链问题转化为Markov链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支.介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和值迭代的部分可观察Markov决策算法,该算法利用线性规划和动态规划的思想,解决当信念状态空间较大时出现的"维数灾"问题,得到Markov决策的逼近最优解.实验数据表明该算法是可行的和有效的.
부분가관찰Markov결책과정시통과인입신념상태공간장비Markov련문제전화위Markov련문제래구해,기묘술진실세계적특성사타성위연구수궤결책과정적중요분지.개소료부분가관찰Markov결책과정적기본원리화결책과정,제출일충기우책략질대화치질대적부분가관찰Markov결책산법,해산법이용선성규화화동태규화적사상,해결당신념상태공간교대시출현적"유수재"문제,득도Markov결책적핍근최우해.실험수거표명해산법시가행적화유효적.