系统仿真技术
繫統倣真技術
계통방진기술
SYSTEM SIMULATION TECHNOLOGY
2014年
3期
203-210
,共8页
Q学习%有限理性博弈%追逐%多指标收益
Q學習%有限理性博弈%追逐%多指標收益
Q학습%유한이성박혁%추축%다지표수익
Q-learning%limited rational game%pursuing%multiple indexes pay-off
传统博弈理论模型建立在人的完全理性基础之上,难以切合实际.有限理性博弈则能够很好地描述实际问题.有限理性的博弈者参与到不完全信息博弈中,对博弈的规则、结构以及对手等博弈信息有一个逐渐适应和了解的过程,因此博弈应是动态进化的模型.针对这一问题,提出了一种基于Q学习算法的不完全信息博弈模型,根据Littman的最大最小原则建立了多指标体系下的策略选择概率分布;构建了Q学习与博弈融合的数学模型,使用Q学习机制来实现博弈模型的动态进化;最后将模型应用于两人追逐的仿真实验,结果表明所提出的模型能够很好地再现追逐情景.
傳統博弈理論模型建立在人的完全理性基礎之上,難以切閤實際.有限理性博弈則能夠很好地描述實際問題.有限理性的博弈者參與到不完全信息博弈中,對博弈的規則、結構以及對手等博弈信息有一箇逐漸適應和瞭解的過程,因此博弈應是動態進化的模型.針對這一問題,提齣瞭一種基于Q學習算法的不完全信息博弈模型,根據Littman的最大最小原則建立瞭多指標體繫下的策略選擇概率分佈;構建瞭Q學習與博弈融閤的數學模型,使用Q學習機製來實現博弈模型的動態進化;最後將模型應用于兩人追逐的倣真實驗,結果錶明所提齣的模型能夠很好地再現追逐情景.
전통박혁이론모형건립재인적완전이성기출지상,난이절합실제.유한이성박혁칙능구흔호지묘술실제문제.유한이성적박혁자삼여도불완전신식박혁중,대박혁적규칙、결구이급대수등박혁신식유일개축점괄응화료해적과정,인차박혁응시동태진화적모형.침대저일문제,제출료일충기우Q학습산법적불완전신식박혁모형,근거Littman적최대최소원칙건립료다지표체계하적책략선택개솔분포;구건료Q학습여박혁융합적수학모형,사용Q학습궤제래실현박혁모형적동태진화;최후장모형응용우량인추축적방진실험,결과표명소제출적모형능구흔호지재현추축정경.