计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2006年
2期
173-177
,共5页
陈飞%王本年%高阳%陈兆乾%陈世福
陳飛%王本年%高暘%陳兆乾%陳世福
진비%왕본년%고양%진조건%진세복
贝叶斯学习%强化学习%单Agent%多Agent
貝葉斯學習%彊化學習%單Agent%多Agent
패협사학습%강화학습%단Agent%다Agent
强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡.贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段.因此,把强化学习和贝叶斯学习相结合,使Agent可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作.本文分别介绍了单Agent贝叶斯强化学习方法和多Agent贝叶斯强化学习方法:单Agent贝叶斯强化学习包括贝叶斯Q学习、贝叶斯模型学习以及贝叶斯动态规划等;多Agent贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等.最后,提出了贝叶斯在强化学习中进一步需要解决的问题.
彊化學習的研究需要解決的重要難點之一是:探索未知的動作和採用已知的最優動作之間的平衡.貝葉斯學習是一種基于已知的概率分佈和觀察到的數據進行推理,做齣最優決策的概率手段.因此,把彊化學習和貝葉斯學習相結閤,使Agent可以根據已有的經驗和新學到的知識來選擇採用何種策略:探索未知的動作還是採用已知的最優動作.本文分彆介紹瞭單Agent貝葉斯彊化學習方法和多Agent貝葉斯彊化學習方法:單Agent貝葉斯彊化學習包括貝葉斯Q學習、貝葉斯模型學習以及貝葉斯動態規劃等;多Agent貝葉斯彊化學習包括貝葉斯模倣模型、貝葉斯協同方法以及在不確定下聯閤形成的貝葉斯學習等.最後,提齣瞭貝葉斯在彊化學習中進一步需要解決的問題.
강화학습적연구수요해결적중요난점지일시:탐색미지적동작화채용이지적최우동작지간적평형.패협사학습시일충기우이지적개솔분포화관찰도적수거진행추리,주출최우결책적개솔수단.인차,파강화학습화패협사학습상결합,사Agent가이근거이유적경험화신학도적지식래선택채용하충책략:탐색미지적동작환시채용이지적최우동작.본문분별개소료단Agent패협사강화학습방법화다Agent패협사강화학습방법:단Agent패협사강화학습포괄패협사Q학습、패협사모형학습이급패협사동태규화등;다Agent패협사강화학습포괄패협사모방모형、패협사협동방법이급재불학정하연합형성적패협사학습등.최후,제출료패협사재강화학습중진일보수요해결적문제.