智能系统学报
智能繫統學報
지능계통학보
CAAI TRANSACTIONS ON INTELLIGENT SYSTEMS
2011年
2期
95-100
,共6页
连传强%徐昕%吴军%李兆斌
連傳彊%徐昕%吳軍%李兆斌
련전강%서흔%오군%리조빈
多智能体系统%强化学习%资源分配%协同控制
多智能體繫統%彊化學習%資源分配%協同控製
다지능체계통%강화학습%자원분배%협동공제
多智能体强化学习算法在用于复杂的分布式系统时存在着状态空间大、学习效率低等问题.针对网络环境中的资源分配问题对多智能体强化学习算法进行了研究,将Q-学习算法和链式反馈(chain feedback,CF)学习算法相结合,提出了Q-CF多智能体强化学习算法,利用一种称为信息链式反馈的机制实现了多智能体之间的高效协同.仿真结果表明,和已有的多智能体Q-学习算法相比,该方法具有更加快速的收敛速度,同时保证了协同策略的性能优化.
多智能體彊化學習算法在用于複雜的分佈式繫統時存在著狀態空間大、學習效率低等問題.針對網絡環境中的資源分配問題對多智能體彊化學習算法進行瞭研究,將Q-學習算法和鏈式反饋(chain feedback,CF)學習算法相結閤,提齣瞭Q-CF多智能體彊化學習算法,利用一種稱為信息鏈式反饋的機製實現瞭多智能體之間的高效協同.倣真結果錶明,和已有的多智能體Q-學習算法相比,該方法具有更加快速的收斂速度,同時保證瞭協同策略的性能優化.
다지능체강화학습산법재용우복잡적분포식계통시존재착상태공간대、학습효솔저등문제.침대망락배경중적자원분배문제대다지능체강화학습산법진행료연구,장Q-학습산법화련식반궤(chain feedback,CF)학습산법상결합,제출료Q-CF다지능체강화학습산법,이용일충칭위신식련식반궤적궤제실현료다지능체지간적고효협동.방진결과표명,화이유적다지능체Q-학습산법상비,해방법구유경가쾌속적수렴속도,동시보증료협동책략적성능우화.