控制与决策
控製與決策
공제여결책
CONTROL AND DECISION
2007年
2期
233-237
,共5页
再励学习(RL)%递阶再励学习%结构化状态空间
再勵學習(RL)%遞階再勵學習%結構化狀態空間
재려학습(RL)%체계재려학습%결구화상태공간
在状态空间满足结构化条件的前提下,通过状态空间的维度划分直接将复杂的原始MDP问题递阶分解为一组简单的MDP或SMDP子问题,并在线对递阶结构进行完善.递阶结构中嵌入不同的再励学习方法可以形成不同的递阶学习.所提出的方法在具备递阶再励学习速度快、易于共享等优点的同时,降低了对先验知识的依赖程度,缓解了学习初期回报值稀少的问题.
在狀態空間滿足結構化條件的前提下,通過狀態空間的維度劃分直接將複雜的原始MDP問題遞階分解為一組簡單的MDP或SMDP子問題,併在線對遞階結構進行完善.遞階結構中嵌入不同的再勵學習方法可以形成不同的遞階學習.所提齣的方法在具備遞階再勵學習速度快、易于共享等優點的同時,降低瞭對先驗知識的依賴程度,緩解瞭學習初期迴報值稀少的問題.
재상태공간만족결구화조건적전제하,통과상태공간적유도화분직접장복잡적원시MDP문제체계분해위일조간단적MDP혹SMDP자문제,병재선대체계결구진행완선.체계결구중감입불동적재려학습방법가이형성불동적체계학습.소제출적방법재구비체계재려학습속도쾌、역우공향등우점적동시,강저료대선험지식적의뢰정도,완해료학습초기회보치희소적문제.