电子学报
電子學報
전자학보
ACTA ELECTRONICA SINICA
2006年
8期
1488-1491
,共4页
多agent学习%Q-学习%利益分配学习%模块化结构%对手建模
多agent學習%Q-學習%利益分配學習%模塊化結構%對手建模
다agent학습%Q-학습%이익분배학습%모괴화결구%대수건모
提出了一种综合了模块化结构、利益分配学习以及对手建模技术的多agent强化学习方法,利用模块化学习结构来克服状态空间的维数灾问题,将Q-学习与利益分配学习相结合以加快学习速度,采用基于观察的对手建模来预测其他agent的动作分布.追捕问题的仿真结果验证了所提方法的有效性.
提齣瞭一種綜閤瞭模塊化結構、利益分配學習以及對手建模技術的多agent彊化學習方法,利用模塊化學習結構來剋服狀態空間的維數災問題,將Q-學習與利益分配學習相結閤以加快學習速度,採用基于觀察的對手建模來預測其他agent的動作分佈.追捕問題的倣真結果驗證瞭所提方法的有效性.
제출료일충종합료모괴화결구、이익분배학습이급대수건모기술적다agent강화학습방법,이용모괴화학습결구래극복상태공간적유수재문제,장Q-학습여이익분배학습상결합이가쾌학습속도,채용기우관찰적대수건모래예측기타agent적동작분포.추포문제적방진결과험증료소제방법적유효성.