计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2008年
5期
1328-1330,1343
,共4页
强化学习%马尔可夫决策过程%稳定状态%倒立摆
彊化學習%馬爾可伕決策過程%穩定狀態%倒立襬
강화학습%마이가부결책과정%은정상태%도립파
强化学习算法的探索次数随着状态空间的增加呈指数增长,因此难以用于复杂系统的控制中.为克服这一问题,提出一种稳定状态空间控制的强化学习算法.算法以寻找稳定空间的最优控制动作为学习目标,将探索过程集中于稳定状态空间中,而不探索系统的全部状态空间.由于稳定状态空间通常仅占系统状态空间中的极小一部分,因此算法的探索次数不随状态空间的增加呈指数增长.
彊化學習算法的探索次數隨著狀態空間的增加呈指數增長,因此難以用于複雜繫統的控製中.為剋服這一問題,提齣一種穩定狀態空間控製的彊化學習算法.算法以尋找穩定空間的最優控製動作為學習目標,將探索過程集中于穩定狀態空間中,而不探索繫統的全部狀態空間.由于穩定狀態空間通常僅佔繫統狀態空間中的極小一部分,因此算法的探索次數不隨狀態空間的增加呈指數增長.
강화학습산법적탐색차수수착상태공간적증가정지수증장,인차난이용우복잡계통적공제중.위극복저일문제,제출일충은정상태공간공제적강화학습산법.산법이심조은정공간적최우공제동작위학습목표,장탐색과정집중우은정상태공간중,이불탐색계통적전부상태공간.유우은정상태공간통상부점계통상태공간중적겁소일부분,인차산법적탐색차수불수상태공간적증가정지수증장.