计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2014年
10期
2160-2170
,共11页
扩展式博弈%不完美信息%遗憾最小化%虚拟遗憾最小化%静态估计法%动态估计法
擴展式博弈%不完美信息%遺憾最小化%虛擬遺憾最小化%靜態估計法%動態估計法
확전식박혁%불완미신식%유감최소화%허의유감최소화%정태고계법%동태고계법
extensive games%imperfect information%regret minimization%counterfactual regret minimization%static estimator%dynamic estimator
研究在不完美信息扩展式博弈中对次优对手弱点的利用.针对该领域中一种常用方法——对手建模方法——的不足,提出了从遗憾最小化的角度来利用次优对手弱点的思想,并基于一种离线的均衡计算方法——虚拟遗憾最小化方法——将其扩展到在线博弈的场景中,实现对次优对手弱点的利用.提出了从博弈结果中估计各个信息集的虚拟价值的方法,给出2种估计手段:静态估计法和动态估计法.静态估计法直接从博弈结果的分布中进行估计,并对每个结果给以相等的估计权重;而动态估计法则对新产生的博弈结果给以较高的估计权重,以便快速地适应对手的策略变化.基于2种估计方法,提出在线博弈中虚拟遗憾最小化的算法,并在基于单牌扑克的实验中,与4种在线学习算法(DBBR,MCCFR-os,Q-learning,Sarsa)进行了对比.实验结果显示所提出的算法不仅对较弱对手的利用效果最好,还能在与4种对比算法的比赛中取得最高的胜率.
研究在不完美信息擴展式博弈中對次優對手弱點的利用.針對該領域中一種常用方法——對手建模方法——的不足,提齣瞭從遺憾最小化的角度來利用次優對手弱點的思想,併基于一種離線的均衡計算方法——虛擬遺憾最小化方法——將其擴展到在線博弈的場景中,實現對次優對手弱點的利用.提齣瞭從博弈結果中估計各箇信息集的虛擬價值的方法,給齣2種估計手段:靜態估計法和動態估計法.靜態估計法直接從博弈結果的分佈中進行估計,併對每箇結果給以相等的估計權重;而動態估計法則對新產生的博弈結果給以較高的估計權重,以便快速地適應對手的策略變化.基于2種估計方法,提齣在線博弈中虛擬遺憾最小化的算法,併在基于單牌撲剋的實驗中,與4種在線學習算法(DBBR,MCCFR-os,Q-learning,Sarsa)進行瞭對比.實驗結果顯示所提齣的算法不僅對較弱對手的利用效果最好,還能在與4種對比算法的比賽中取得最高的勝率.
연구재불완미신식확전식박혁중대차우대수약점적이용.침대해영역중일충상용방법——대수건모방법——적불족,제출료종유감최소화적각도래이용차우대수약점적사상,병기우일충리선적균형계산방법——허의유감최소화방법——장기확전도재선박혁적장경중,실현대차우대수약점적이용.제출료종박혁결과중고계각개신식집적허의개치적방법,급출2충고계수단:정태고계법화동태고계법.정태고계법직접종박혁결과적분포중진행고계,병대매개결과급이상등적고계권중;이동태고계법칙대신산생적박혁결과급이교고적고계권중,이편쾌속지괄응대수적책략변화.기우2충고계방법,제출재선박혁중허의유감최소화적산법,병재기우단패복극적실험중,여4충재선학습산법(DBBR,MCCFR-os,Q-learning,Sarsa)진행료대비.실험결과현시소제출적산법불부대교약대수적이용효과최호,환능재여4충대비산법적비새중취득최고적성솔.