CAJ | 학술논문

基于Markov决策过程(MDP)的规划方法可以处理多种不确定规划问题,价值迭代算法(VI)是求解MDP的经典算法,但VI需要计算更新每个状态的值,求解过程相当缓慢.在分析了MDP状态图本身的因果依赖关系的基础上,提出一种改进的价值迭代算法,称为顺序价值迭代算法(SVI).它先将一个MDP分解成多个拓扑有序的强连通分量,然后应用价值迭代算法顺序求解各个分量,这样处理可以避免对大量无用状态的计算并使得可用状态排成拓扑序列.对比实验结果证明了该算法的有效性及优异性能.
기우Markov결책과정(MDP)적규화방법가이처리다충불학정규화문제,개치질대산법(VI)시구해MDP적경전산법,단VI수요계산경신매개상태적치,구해과정상당완만.재분석료MDP상태도본신적인과의뢰관계적기출상,제출일충개진적개치질대산법,칭위순서개치질대산법(SVI).타선장일개MDP분해성다개탁복유서적강련통분량,연후응용개치질대산법순서구해각개분량,저양처리가이피면대대량무용상태적계산병사득가용상태배성탁복서렬.대비실험결과증명료해산법적유효성급우이성능.