南京大学学报(自然科学版)
南京大學學報(自然科學版)
남경대학학보(자연과학판)
JOURNAL OF NANJING UNIVERSITY(NATURAL SCIENCES)
2008年
2期
148-156
,共9页
王蓁蓁%邢汉承%张志政%倪庆剑
王蓁蓁%邢漢承%張誌政%倪慶劍
왕진진%형한승%장지정%예경검
测度值%测度值分枝过程%马尔可夫决策过程
測度值%測度值分枝過程%馬爾可伕決策過程
측도치%측도치분지과정%마이가부결책과정
本文提出测度值马尔可夫决策过程新模型.在此模型下,agent对环境的把握用测度概念来表示,于是agent则根据测度来决定自己的最优行动以得到最优策略,因此本文也提供了测度值马尔可夫决策过程的最优策略算法.该模型是部分可观察马尔可夫决策过程的推广,它反映人类思维的一个重要特征,人们在把握全部状态可能性(即对状态空间进行权衡度量)的态势下,思考问题并选择自己的最优行动.部分可观察马尔可夫决策过程只是它的一种特例.
本文提齣測度值馬爾可伕決策過程新模型.在此模型下,agent對環境的把握用測度概唸來錶示,于是agent則根據測度來決定自己的最優行動以得到最優策略,因此本文也提供瞭測度值馬爾可伕決策過程的最優策略算法.該模型是部分可觀察馬爾可伕決策過程的推廣,它反映人類思維的一箇重要特徵,人們在把握全部狀態可能性(即對狀態空間進行權衡度量)的態勢下,思攷問題併選擇自己的最優行動.部分可觀察馬爾可伕決策過程隻是它的一種特例.
본문제출측도치마이가부결책과정신모형.재차모형하,agent대배경적파악용측도개념래표시,우시agent칙근거측도래결정자기적최우행동이득도최우책략,인차본문야제공료측도치마이가부결책과정적최우책략산법.해모형시부분가관찰마이가부결책과정적추엄,타반영인류사유적일개중요특정,인문재파악전부상태가능성(즉대상태공간진행권형도량)적태세하,사고문제병선택자기적최우행동.부분가관찰마이가부결책과정지시타적일충특례.