CAJ | 학술논문

Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制.此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状态和动作的编码方法以及参数对Actor-Critic方法有重要的影响.Tile Coding编码具有简单易用、计算时间复杂度较低等优点,因此,将Tile Coding编码与基于模型的Actor-Critic方法结合,并将所得算法应用于强化学习仿真实验.实验结果表明,所得算法具有较好的性能.
Actor-Critic시일류구유교호성능급수렴보증적강화학습방법,연이,Agent재학습화개진책략적과정중병몰유대배경적동태성진행학습,도치Actor-Critic방법적성능수도일정한제.차외,Actor-Critic방법중수요근사지표시책략이급치함수,기중상태화동작적편마방법이급삼수대Actor-Critic방법유중요적영향.Tile Coding편마구유간단역용、계산시간복잡도교저등우점,인차,장Tile Coding편마여기우모형적Actor-Critic방법결합,병장소득산법응용우강화학습방진실험.실험결과표명,소득산법구유교호적성능.