CAJ | 학술논문

Q学习是一种重要的强化学习算法.本文针对Q学习和Q(λ)算法的不足,提出了一种具有多步预见能力的Q学习方法:MQ方法.首先给出了MDP模型,在分析Q学习和Q(λ)算法的基础上给出了MQ算法的推导过程,并分析了算法的更新策略和k值的确定原则.通过悬崖步行仿真试验验证了该算法的有效性.理论分析和数值试验均表明,该算法具有较强的预见能力,同时能降低计算复杂度,是一种有效平衡更新速度和复杂度的强化学习方法.
Q학습시일충중요적강화학습산법.본문침대Q학습화Q(λ)산법적불족,제출료일충구유다보예견능력적Q학습방법:MQ방법.수선급출료MDP모형,재분석Q학습화Q(λ)산법적기출상급출료MQ산법적추도과정,병분석료산법적경신책략화k치적학정원칙.통과현애보행방진시험험증료해산법적유효성.이론분석화수치시험균표명,해산법구유교강적예견능력,동시능강저계산복잡도,시일충유효평형경신속도화복잡도적강화학습방법.