CAJ | 학술논문

万方数据

电子学报 전자학보
ACTA ELECTRONICA SINICA
2006年 8期 1488-1491 ,共4页

周浦城%洪炳殚%黄庆成週浦城%洪炳殫%黃慶成

주포성%홍병탄%황경성

多agent学习%Q-学习%利益分配学习%模块化结构%对手建模多agent學習%Q-學習%利益分配學習%模塊化結構%對手建模
다agent학습%Q-학습%이익분배학습%모괴화결구%대수건모

提出了一种综合了模块化结构、利益分配学习以及对手建模技术的多agent强化学习方法,利用模块化学习结构来克服状态空间的维数灾问题,将Q-学习与利益分配学习相结合以加快学习速度,采用基于观察的对手建模来预测其他agent的动作分布.追捕问题的仿真结果验证了所提方法的有效性.
제출료일충종합료모괴화결구、이익분배학습이급대수건모기술적다agent강화학습방법,이용모괴화학습결구래극복상태공간적유수재문제,장Q-학습여이익분배학습상결합이가쾌학습속도,채용기우관찰적대수건모래예측기타agent적동작분포.추포문제적방진결과험증료소제방법적유효성.