西安交通大学学报
西安交通大學學報
서안교통대학학보
JOURNAL OF XI'AN JIAOTONG UNIVERSITY
2008年
12期
1472-1475,1485
,共5页
不确定环境规划%预测状态表示%Q学习算法%奶酪迷宫
不確定環境規劃%預測狀態錶示%Q學習算法%奶酪迷宮
불학정배경규화%예측상태표시%Q학습산법%내락미궁
针对不确定环境的规划问题,提出了基于预测状态表示的Q学习算法.将预测状态表示方法与Q学习算法结合,用预测状态表示的预测向量作为Q学习算法的状态表示,使得到的状态具有马尔可夫特性,满足强化学习任务的要求,进而用Q学习算法学习智能体的最优策略,可解决不确定环境下的规划问题.仿真结果表明,在发现智能体的最优近似策略时,算法需要的学习周期数与假定环境状态已知情况下需要的学习周期数大致相同.
針對不確定環境的規劃問題,提齣瞭基于預測狀態錶示的Q學習算法.將預測狀態錶示方法與Q學習算法結閤,用預測狀態錶示的預測嚮量作為Q學習算法的狀態錶示,使得到的狀態具有馬爾可伕特性,滿足彊化學習任務的要求,進而用Q學習算法學習智能體的最優策略,可解決不確定環境下的規劃問題.倣真結果錶明,在髮現智能體的最優近似策略時,算法需要的學習週期數與假定環境狀態已知情況下需要的學習週期數大緻相同.
침대불학정배경적규화문제,제출료기우예측상태표시적Q학습산법.장예측상태표시방법여Q학습산법결합,용예측상태표시적예측향량작위Q학습산법적상태표시,사득도적상태구유마이가부특성,만족강화학습임무적요구,진이용Q학습산법학습지능체적최우책략,가해결불학정배경하적규화문제.방진결과표명,재발현지능체적최우근사책략시,산법수요적학습주기수여가정배경상태이지정황하수요적학습주기수대치상동.