CAJ | 학술논문

针对多Agent协作强化学习中存在的行为和状态维数灾问题,以及行为选择上存在多个均衡解,为了收敛到最佳均衡解需要搜索策略空间和协调策略选择问题,提出了一种新颖的基于量子理论和蚁群算法的多Agent协作学习算法.新算法首先借签了量子计算理论,将多Agent的行为和状态空间通过量子叠加态表示,利用量子纠缠态来协调策略选择,利用概率振幅进行动作探索,加快学习速度.其次,根据蚁群算法,提出"脚印"思想来间接增强Agent之间的交互.最后,对新算法的理论分析和实验结果都证明了改进的Q学习是可行的,并且可以有效地提高学习效率.
침대다Agent협작강화학습중존재적행위화상태유수재문제,이급행위선택상존재다개균형해,위료수렴도최가균형해수요수색책략공간화협조책략선택문제,제출료일충신영적기우양자이론화의군산법적다Agent협작학습산법.신산법수선차첨료양자계산이론,장다Agent적행위화상태공간통과양자첩가태표시,이용양자규전태래협조책략선택,이용개솔진폭진행동작탐색,가쾌학습속도.기차,근거의군산법,제출"각인"사상래간접증강Agent지간적교호.최후,대신산법적이론분석화실험결과도증명료개진적Q학습시가행적,병차가이유효지제고학습효솔.