电子学报
電子學報
전자학보
ACTA ELECTRONICA SINICA
2009年
6期
1153-1158
,共6页
高斯过程%分类器%连续空间%强化学习%小船靠岸问题
高斯過程%分類器%連續空間%彊化學習%小船靠岸問題
고사과정%분류기%련속공간%강화학습%소선고안문제
如何将强化学习方法推广到大规模或连续空间,是决定强化学习方法能否得到广泛应用的关键.不同于已有的值函数逼近法,把强化学习构建为一个简单的二分类问题,利用分类算法来得到强化学习中的策略,提出一种基于高斯过程分类器的连续状态和连续动作空间强化学习方法.首先将连续动作空间离散化为确定数目的离散动作,然后利用高斯分类器对系统的连续状态一离散动作对进行正负分类,对判定为正类的离散动作按其概率值进行加权求和,进而得到实际作用于系统的连续动作.小船靠岸问题的仿真结果表明所提方法能够有效解决强化学习的连续空间表示问题.
如何將彊化學習方法推廣到大規模或連續空間,是決定彊化學習方法能否得到廣汎應用的關鍵.不同于已有的值函數逼近法,把彊化學習構建為一箇簡單的二分類問題,利用分類算法來得到彊化學習中的策略,提齣一種基于高斯過程分類器的連續狀態和連續動作空間彊化學習方法.首先將連續動作空間離散化為確定數目的離散動作,然後利用高斯分類器對繫統的連續狀態一離散動作對進行正負分類,對判定為正類的離散動作按其概率值進行加權求和,進而得到實際作用于繫統的連續動作.小船靠岸問題的倣真結果錶明所提方法能夠有效解決彊化學習的連續空間錶示問題.
여하장강화학습방법추엄도대규모혹련속공간,시결정강화학습방법능부득도엄범응용적관건.불동우이유적치함수핍근법,파강화학습구건위일개간단적이분류문제,이용분류산법래득도강화학습중적책략,제출일충기우고사과정분류기적련속상태화련속동작공간강화학습방법.수선장련속동작공간리산화위학정수목적리산동작,연후이용고사분류기대계통적련속상태일리산동작대진행정부분류,대판정위정류적리산동작안기개솔치진행가권구화,진이득도실제작용우계통적련속동작.소선고안문제적방진결과표명소제방법능구유효해결강화학습적련속공간표시문제.