CAJ | 학술논문

多智能体强化学习算法在用于复杂的分布式系统时存在着状态空间大、学习效率低等问题.针对网络环境中的资源分配问题对多智能体强化学习算法进行了研究,将Q-学习算法和链式反馈(chain feedback,CF)学习算法相结合,提出了Q-CF多智能体强化学习算法,利用一种称为信息链式反馈的机制实现了多智能体之间的高效协同.仿真结果表明,和已有的多智能体Q-学习算法相比,该方法具有更加快速的收敛速度,同时保证了协同策略的性能优化.
다지능체강화학습산법재용우복잡적분포식계통시존재착상태공간대、학습효솔저등문제.침대망락배경중적자원분배문제대다지능체강화학습산법진행료연구,장Q-학습산법화련식반궤(chain feedback,CF)학습산법상결합,제출료Q-CF다지능체강화학습산법,이용일충칭위신식련식반궤적궤제실현료다지능체지간적고효협동.방진결과표명,화이유적다지능체Q-학습산법상비,해방법구유경가쾌속적수렴속도,동시보증료협동책략적성능우화.