CAJ | 학술논문

研究在不完美信息扩展式博弈中对次优对手弱点的利用.针对该领域中一种常用方法——对手建模方法——的不足,提出了从遗憾最小化的角度来利用次优对手弱点的思想,并基于一种离线的均衡计算方法——虚拟遗憾最小化方法——将其扩展到在线博弈的场景中,实现对次优对手弱点的利用.提出了从博弈结果中估计各个信息集的虚拟价值的方法,给出2种估计手段:静态估计法和动态估计法.静态估计法直接从博弈结果的分布中进行估计,并对每个结果给以相等的估计权重;而动态估计法则对新产生的博弈结果给以较高的估计权重,以便快速地适应对手的策略变化.基于2种估计方法,提出在线博弈中虚拟遗憾最小化的算法,并在基于单牌扑克的实验中,与4种在线学习算法(DBBR,MCCFR-os,Q-learning,Sarsa)进行了对比.实验结果显示所提出的算法不仅对较弱对手的利用效果最好,还能在与4种对比算法的比赛中取得最高的胜率.
연구재불완미신식확전식박혁중대차우대수약점적이용.침대해영역중일충상용방법——대수건모방법——적불족,제출료종유감최소화적각도래이용차우대수약점적사상,병기우일충리선적균형계산방법——허의유감최소화방법——장기확전도재선박혁적장경중,실현대차우대수약점적이용.제출료종박혁결과중고계각개신식집적허의개치적방법,급출2충고계수단:정태고계법화동태고계법.정태고계법직접종박혁결과적분포중진행고계,병대매개결과급이상등적고계권중;이동태고계법칙대신산생적박혁결과급이교고적고계권중,이편쾌속지괄응대수적책략변화.기우2충고계방법,제출재선박혁중허의유감최소화적산법,병재기우단패복극적실험중,여4충재선학습산법(DBBR,MCCFR-os,Q-learning,Sarsa)진행료대비.실험결과현시소제출적산법불부대교약대수적이용효과최호,환능재여4충대비산법적비새중취득최고적성솔.