控制理论与应用
控製理論與應用
공제이론여응용
Control Theory & Applications
2015年
7期
887-894
,共8页
刘智斌%曾晓勤%徐彦%禹继国
劉智斌%曾曉勤%徐彥%禹繼國
류지빈%증효근%서언%우계국
强化学习%神经网络%资格迹%倒立摆%梯度下降
彊化學習%神經網絡%資格跡%倒立襬%梯度下降
강화학습%신경망락%자격적%도립파%제도하강
reinforcement learning%neural networks%eligibility traces%cart-pole system%gradient descent
强化学习是解决自适应问题的重要方法,被广泛地应用于连续状态下的学习控制,然而存在效率不高和收敛速度较慢的问题.在运用反向传播(back propagation,BP)神经网络基础上,结合资格迹方法提出一种算法,实现了强化学习过程的多步更新.解决了输出层的局部梯度向隐层节点的反向传播问题,从而实现了神经网络隐层权值的快速更新,并提供一个算法描述.提出了一种改进的残差法,在神经网络的训练过程中将各层权值进行线性优化加权,既获得了梯度下降法的学习速度又获得了残差梯度法的收敛性能,将其应用于神经网络隐层的权值更新,改善了值函数的收敛性能.通过一个倒立摆平衡系统仿真实验,对算法进行了验证和分析.结果显示,经过较短时间的学习,本方法能成功地控制倒立摆,显著提高了学习效率.
彊化學習是解決自適應問題的重要方法,被廣汎地應用于連續狀態下的學習控製,然而存在效率不高和收斂速度較慢的問題.在運用反嚮傳播(back propagation,BP)神經網絡基礎上,結閤資格跡方法提齣一種算法,實現瞭彊化學習過程的多步更新.解決瞭輸齣層的跼部梯度嚮隱層節點的反嚮傳播問題,從而實現瞭神經網絡隱層權值的快速更新,併提供一箇算法描述.提齣瞭一種改進的殘差法,在神經網絡的訓練過程中將各層權值進行線性優化加權,既穫得瞭梯度下降法的學習速度又穫得瞭殘差梯度法的收斂性能,將其應用于神經網絡隱層的權值更新,改善瞭值函數的收斂性能.通過一箇倒立襬平衡繫統倣真實驗,對算法進行瞭驗證和分析.結果顯示,經過較短時間的學習,本方法能成功地控製倒立襬,顯著提高瞭學習效率.
강화학습시해결자괄응문제적중요방법,피엄범지응용우련속상태하적학습공제,연이존재효솔불고화수렴속도교만적문제.재운용반향전파(back propagation,BP)신경망락기출상,결합자격적방법제출일충산법,실현료강화학습과정적다보경신.해결료수출층적국부제도향은층절점적반향전파문제,종이실현료신경망락은층권치적쾌속경신,병제공일개산법묘술.제출료일충개진적잔차법,재신경망락적훈련과정중장각층권치진행선성우화가권,기획득료제도하강법적학습속도우획득료잔차제도법적수렴성능,장기응용우신경망락은층적권치경신,개선료치함수적수렴성능.통과일개도립파평형계통방진실험,대산법진행료험증화분석.결과현시,경과교단시간적학습,본방법능성공지공제도립파,현저제고료학습효솔.