计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2014年
6期
239-242,249
,共5页
金玉净%朱文文%伏玉琛%刘全
金玉淨%硃文文%伏玉琛%劉全
금옥정%주문문%복옥침%류전
强化学习%Tile Coding%Actor-Critic%模型学习%函数逼近
彊化學習%Tile Coding%Actor-Critic%模型學習%函數逼近
강화학습%Tile Coding%Actor-Critic%모형학습%함수핍근
Reinforcement learning%Tile Coding%Actor-Critic%Model learning%Function approximation
Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制.此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状态和动作的编码方法以及参数对Actor-Critic方法有重要的影响.Tile Coding编码具有简单易用、计算时间复杂度较低等优点,因此,将Tile Coding编码与基于模型的Actor-Critic方法结合,并将所得算法应用于强化学习仿真实验.实验结果表明,所得算法具有较好的性能.
Actor-Critic是一類具有較好性能及收斂保證的彊化學習方法,然而,Agent在學習和改進策略的過程中併沒有對環境的動態性進行學習,導緻Actor-Critic方法的性能受到一定限製.此外,Actor-Critic方法中需要近似地錶示策略以及值函數,其中狀態和動作的編碼方法以及參數對Actor-Critic方法有重要的影響.Tile Coding編碼具有簡單易用、計算時間複雜度較低等優點,因此,將Tile Coding編碼與基于模型的Actor-Critic方法結閤,併將所得算法應用于彊化學習倣真實驗.實驗結果錶明,所得算法具有較好的性能.
Actor-Critic시일류구유교호성능급수렴보증적강화학습방법,연이,Agent재학습화개진책략적과정중병몰유대배경적동태성진행학습,도치Actor-Critic방법적성능수도일정한제.차외,Actor-Critic방법중수요근사지표시책략이급치함수,기중상태화동작적편마방법이급삼수대Actor-Critic방법유중요적영향.Tile Coding편마구유간단역용、계산시간복잡도교저등우점,인차,장Tile Coding편마여기우모형적Actor-Critic방법결합,병장소득산법응용우강화학습방진실험.실험결과표명,소득산법구유교호적성능.