计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2006年
1期
30-32
,共3页
强化学习%智能主体%马尔可夫决策过程%误差后向传播网络%状态动作对
彊化學習%智能主體%馬爾可伕決策過程%誤差後嚮傳播網絡%狀態動作對
강화학습%지능주체%마이가부결책과정%오차후향전파망락%상태동작대
标准的Sarsa算法对状态空间的要求是离散的且空间较小,而实际问题中很多的系统的状态空间是连续的或尽管是离散的但空间较大,这就要求有很大的空间来存储状态动作对(State-Action-Pair).对此文中提出用BP网络队列保存SAPs,实验验证可以解决由于空间过大而带来的Q值表示问题.
標準的Sarsa算法對狀態空間的要求是離散的且空間較小,而實際問題中很多的繫統的狀態空間是連續的或儘管是離散的但空間較大,這就要求有很大的空間來存儲狀態動作對(State-Action-Pair).對此文中提齣用BP網絡隊列保存SAPs,實驗驗證可以解決由于空間過大而帶來的Q值錶示問題.
표준적Sarsa산법대상태공간적요구시리산적차공간교소,이실제문제중흔다적계통적상태공간시련속적혹진관시리산적단공간교대,저취요구유흔대적공간래존저상태동작대(State-Action-Pair).대차문중제출용BP망락대렬보존SAPs,실험험증가이해결유우공간과대이대래적Q치표시문제.