中国科技论文在线
中國科技論文在線
중국과기논문재선
SCIENCEPAPER ONLINE
2010年
2期
120-123
,共4页
强化学习%知识迁移%异质Agent%Q值
彊化學習%知識遷移%異質Agent%Q值
강화학습%지식천이%이질Agent%Q치
针对现有知识迁移方法仅适用于同质强化学Agent问题,提出一种能够在具有不同状态动作空间的异质Agent间迁移知识的Q学习算法.该算法的主要思想是通过新旧Agent共同学习过的任务,利用神经网络离线学习两Agent间的Q值函数映射关系,利用构造的Q值函数映射器把旧Agent学过而新Agent没有学过的任务的Q值映射到新Agent上,从而可以减少新Agem的学习尝试次数,提高学习速度.10×10格子世界仿真结果验证了所提知识迁移Q学习算法的有效性.
針對現有知識遷移方法僅適用于同質彊化學Agent問題,提齣一種能夠在具有不同狀態動作空間的異質Agent間遷移知識的Q學習算法.該算法的主要思想是通過新舊Agent共同學習過的任務,利用神經網絡離線學習兩Agent間的Q值函數映射關繫,利用構造的Q值函數映射器把舊Agent學過而新Agent沒有學過的任務的Q值映射到新Agent上,從而可以減少新Agem的學習嘗試次數,提高學習速度.10×10格子世界倣真結果驗證瞭所提知識遷移Q學習算法的有效性.
침대현유지식천이방법부괄용우동질강화학Agent문제,제출일충능구재구유불동상태동작공간적이질Agent간천이지식적Q학습산법.해산법적주요사상시통과신구Agent공동학습과적임무,이용신경망락리선학습량Agent간적Q치함수영사관계,이용구조적Q치함수영사기파구Agent학과이신Agent몰유학과적임무적Q치영사도신Agent상,종이가이감소신Agem적학습상시차수,제고학습속도.10×10격자세계방진결과험증료소제지식천이Q학습산법적유효성.