中国矿业大学学报
中國礦業大學學報
중국광업대학학보
JOURNAL OF CHINA UNIVERSITY OF MINING & TECHNOLOGY
2008年
1期
93-98
,共6页
连续状态空间%支持向量机%Q学习%滚动时间窗%在线学习
連續狀態空間%支持嚮量機%Q學習%滾動時間窗%在線學習
련속상태공간%지지향량궤%Q학습%곤동시간창%재선학습
针对连续状态空间下的强化学习控制问题,提出一种基于支持向量机的Q学习方法.支持向量机不易陷入局部极小,且有优良的泛化性能,对系统状态-动作对的Q值进行估计计算,解决状态空间泛化中易出现的"维数灾"问题.引入滚动时间窗机制实现支持向量机的在线学习:系统实时检测得到的新数据若不包含新信息,则保持学习的样本集不变;若包含新信息,则滚动时间窗,更新样本集,从而更新支持向量机的回归模型,并对时间窗内的数据分配不同的权值以充分利用数据的信息.倒立摆平衡控制的仿真结果表明该方法能够有效解决具有连续状态的非线性系统的强化学习控制.
針對連續狀態空間下的彊化學習控製問題,提齣一種基于支持嚮量機的Q學習方法.支持嚮量機不易陷入跼部極小,且有優良的汎化性能,對繫統狀態-動作對的Q值進行估計計算,解決狀態空間汎化中易齣現的"維數災"問題.引入滾動時間窗機製實現支持嚮量機的在線學習:繫統實時檢測得到的新數據若不包含新信息,則保持學習的樣本集不變;若包含新信息,則滾動時間窗,更新樣本集,從而更新支持嚮量機的迴歸模型,併對時間窗內的數據分配不同的權值以充分利用數據的信息.倒立襬平衡控製的倣真結果錶明該方法能夠有效解決具有連續狀態的非線性繫統的彊化學習控製.
침대련속상태공간하적강화학습공제문제,제출일충기우지지향량궤적Q학습방법.지지향량궤불역함입국부겁소,차유우량적범화성능,대계통상태-동작대적Q치진행고계계산,해결상태공간범화중역출현적"유수재"문제.인입곤동시간창궤제실현지지향량궤적재선학습:계통실시검측득도적신수거약불포함신신식,칙보지학습적양본집불변;약포함신신식,칙곤동시간창,경신양본집,종이경신지지향량궤적회귀모형,병대시간창내적수거분배불동적권치이충분이용수거적신식.도립파평형공제적방진결과표명해방법능구유효해결구유련속상태적비선성계통적강화학습공제.