计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2006年
5期
851-855
,共5页
王本年%高阳%陈兆乾%谢俊元%陈世福
王本年%高暘%陳兆乾%謝俊元%陳世福
왕본년%고양%진조건%사준원%진세복
分层强化学习%Option%子目标
分層彊化學習%Option%子目標
분층강화학습%Option%자목표
在学习过程中自动发现有用的Subgoal并创建Option,对提高强化学习的学习性能有着重要意义.提出了一种基于k-聚类的Subgoal自动发现算法,该算法能通过对在线获取的少量路径数据进行聚类的方法抽取出Subgoal.实验表明,该算法能有效地发现所有符合要求的Subgoal,与Q-学习和基于多样性密度的强化学习算法相比,用该算法发现Subgoal并创建Option的强化学习算法能有效提高Agent的学习速度.
在學習過程中自動髮現有用的Subgoal併創建Option,對提高彊化學習的學習性能有著重要意義.提齣瞭一種基于k-聚類的Subgoal自動髮現算法,該算法能通過對在線穫取的少量路徑數據進行聚類的方法抽取齣Subgoal.實驗錶明,該算法能有效地髮現所有符閤要求的Subgoal,與Q-學習和基于多樣性密度的彊化學習算法相比,用該算法髮現Subgoal併創建Option的彊化學習算法能有效提高Agent的學習速度.
재학습과정중자동발현유용적Subgoal병창건Option,대제고강화학습적학습성능유착중요의의.제출료일충기우k-취류적Subgoal자동발현산법,해산법능통과대재선획취적소량로경수거진행취류적방법추취출Subgoal.실험표명,해산법능유효지발현소유부합요구적Subgoal,여Q-학습화기우다양성밀도적강화학습산법상비,용해산법발현Subgoal병창건Option적강화학습산법능유효제고Agent적학습속도.