计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2008年
10期
16-19,30
,共5页
极限环%强化学习%倒立摆
極限環%彊化學習%倒立襬
겁한배%강화학습%도립파
倒立摆系统是强化学习的一种重要的应用领域.首先分析指出在倒立摆系统中,常用的强化学习算法存在着极限环问题,算法无法正确收敛、控制策略不稳定.但是由于在简单的一级倒立摆系统中算法的控制策略不稳定的现象还不明显,因此极限环问题常常被忽视.针对强化学习算法中极限环问题,提出基于动作连续性准则的强化学习算法.算法采用修正强化信号和改进探索策略的方法克服极限环对倒立摆系统的影响.将提出的算法用于二级倒立摆的实际系统控制中,实验结果证明算法不仅能成功控制倒立摆,而且可以保持控制策略的稳定.
倒立襬繫統是彊化學習的一種重要的應用領域.首先分析指齣在倒立襬繫統中,常用的彊化學習算法存在著極限環問題,算法無法正確收斂、控製策略不穩定.但是由于在簡單的一級倒立襬繫統中算法的控製策略不穩定的現象還不明顯,因此極限環問題常常被忽視.針對彊化學習算法中極限環問題,提齣基于動作連續性準則的彊化學習算法.算法採用脩正彊化信號和改進探索策略的方法剋服極限環對倒立襬繫統的影響.將提齣的算法用于二級倒立襬的實際繫統控製中,實驗結果證明算法不僅能成功控製倒立襬,而且可以保持控製策略的穩定.
도립파계통시강화학습적일충중요적응용영역.수선분석지출재도립파계통중,상용적강화학습산법존재착겁한배문제,산법무법정학수렴、공제책략불은정.단시유우재간단적일급도립파계통중산법적공제책략불은정적현상환불명현,인차겁한배문제상상피홀시.침대강화학습산법중겁한배문제,제출기우동작련속성준칙적강화학습산법.산법채용수정강화신호화개진탐색책략적방법극복겁한배대도립파계통적영향.장제출적산법용우이급도립파적실제계통공제중,실험결과증명산법불부능성공공제도립파,이차가이보지공제책략적은정.