计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2013年
2期
240-247
,共8页
强化学习%多动机%Q学习%MMQ—unique算法%MMQ-voting算法
彊化學習%多動機%Q學習%MMQ—unique算法%MMQ-voting算法
강화학습%다동궤%Q학습%MMQ—unique산법%MMQ-voting산법
以Q学习为代表的传统强化学习方法都是维持一个状态与动作的映射表.这种状态-动作的二层映射结构缺乏灵活性,同时不能有效地使用先验知识引导学习过程.为了解决这一问题,提出了一种基于多动机强化学习(MMRL)的框架.MMRL框架在状态与动作间引入动机层,将原有的状态-动作二层结构扩展为状态-动机-动作三层结构,可根据经验设置多个动机.通过动机的设定实现了先验知识的利用,进而加快了强化学习的进程,提高了强化学习的灵活性.实验表明,通过合理的动机设定,多动机强化学习的学习速度较传统强化学习有明显提升.
以Q學習為代錶的傳統彊化學習方法都是維持一箇狀態與動作的映射錶.這種狀態-動作的二層映射結構缺乏靈活性,同時不能有效地使用先驗知識引導學習過程.為瞭解決這一問題,提齣瞭一種基于多動機彊化學習(MMRL)的框架.MMRL框架在狀態與動作間引入動機層,將原有的狀態-動作二層結構擴展為狀態-動機-動作三層結構,可根據經驗設置多箇動機.通過動機的設定實現瞭先驗知識的利用,進而加快瞭彊化學習的進程,提高瞭彊化學習的靈活性.實驗錶明,通過閤理的動機設定,多動機彊化學習的學習速度較傳統彊化學習有明顯提升.
이Q학습위대표적전통강화학습방법도시유지일개상태여동작적영사표.저충상태-동작적이층영사결구결핍령활성,동시불능유효지사용선험지식인도학습과정.위료해결저일문제,제출료일충기우다동궤강화학습(MMRL)적광가.MMRL광가재상태여동작간인입동궤층,장원유적상태-동작이층결구확전위상태-동궤-동작삼층결구,가근거경험설치다개동궤.통과동궤적설정실현료선험지식적이용,진이가쾌료강화학습적진정,제고료강화학습적령활성.실험표명,통과합리적동궤설정,다동궤강화학습적학습속도교전통강화학습유명현제승.