信息与控制
信息與控製
신식여공제
INFORMATION AND CONTROL
2009年
4期
406-411
,共6页
王雪松%张政%程玉虎%张依阳
王雪鬆%張政%程玉虎%張依暘
왕설송%장정%정옥호%장의양
策略迭代%递归最小二乘%图论%测地距离%高斯函数%基函数
策略迭代%遞歸最小二乘%圖論%測地距離%高斯函數%基函數
책략질대%체귀최소이승%도론%측지거리%고사함수%기함수
在策略迭代结强化学习方法的值函数逼近过程中,基函数的合理选择直接影响方法的性能.为更好地描述环境的拓扑关系,采用测地线距离米替换普通高斯函数中的欧氏距离,提出一种基于测地高斯基函数的策略迭代强化学习方法.首先,基于马尔可夫决策过程抽样得到的样本数据建立环境的图论描述.其次,在图上定义测地高斯某函数,并用基于最短路径快速算法得到的最短路径来逼近测地线距离.然后,假定强化学习系统的状态-动作值函数是给定测地高斯基函数的加权组合,采用递归最小二乘方法对权值进行在线增量式更新.最后,基于估计的值函数进行策略改进.10×10和20×20迷宫问题的仿真结果验证了所提策略迭代方法的有效性.
在策略迭代結彊化學習方法的值函數逼近過程中,基函數的閤理選擇直接影響方法的性能.為更好地描述環境的拓撲關繫,採用測地線距離米替換普通高斯函數中的歐氏距離,提齣一種基于測地高斯基函數的策略迭代彊化學習方法.首先,基于馬爾可伕決策過程抽樣得到的樣本數據建立環境的圖論描述.其次,在圖上定義測地高斯某函數,併用基于最短路徑快速算法得到的最短路徑來逼近測地線距離.然後,假定彊化學習繫統的狀態-動作值函數是給定測地高斯基函數的加權組閤,採用遞歸最小二乘方法對權值進行在線增量式更新.最後,基于估計的值函數進行策略改進.10×10和20×20迷宮問題的倣真結果驗證瞭所提策略迭代方法的有效性.
재책략질대결강화학습방법적치함수핍근과정중,기함수적합리선택직접영향방법적성능.위경호지묘술배경적탁복관계,채용측지선거리미체환보통고사함수중적구씨거리,제출일충기우측지고사기함수적책략질대강화학습방법.수선,기우마이가부결책과정추양득도적양본수거건립배경적도론묘술.기차,재도상정의측지고사모함수,병용기우최단로경쾌속산법득도적최단로경래핍근측지선거리.연후,가정강화학습계통적상태-동작치함수시급정측지고사기함수적가권조합,채용체귀최소이승방법대권치진행재선증량식경신.최후,기우고계적치함수진행책략개진.10×10화20×20미궁문제적방진결과험증료소제책략질대방법적유효성.