计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2008年
22期
5817-5819,5823
,共4页
殷苌茗%付超红%薛丽华%李立云
慇萇茗%付超紅%薛麗華%李立雲
은장명%부초홍%설려화%리립운
组合神经网络%强化学习%自组织映射%BP网络%Sarsa算法
組閤神經網絡%彊化學習%自組織映射%BP網絡%Sarsa算法
조합신경망락%강화학습%자조직영사%BP망락%Sarsa산법
标准的Sarsa(λ)算法对状态空间的要求是离散的且空间较小,而实际问题中很多系统的状态空间是连续的或尽管是离散的但空间较大,这就需要很大的内存来存储状态动作对.为此提出组合神经网络,首先用自组织映射(SOM)神经网络对状态空间进行自适应量化,然后在此基础上用BP网络拟合Q函数.该方法实现了Sarsa(λ)算法在连续和大规模状态空间的泛化.最后,实验结果表明了该方法的有效性.
標準的Sarsa(λ)算法對狀態空間的要求是離散的且空間較小,而實際問題中很多繫統的狀態空間是連續的或儘管是離散的但空間較大,這就需要很大的內存來存儲狀態動作對.為此提齣組閤神經網絡,首先用自組織映射(SOM)神經網絡對狀態空間進行自適應量化,然後在此基礎上用BP網絡擬閤Q函數.該方法實現瞭Sarsa(λ)算法在連續和大規模狀態空間的汎化.最後,實驗結果錶明瞭該方法的有效性.
표준적Sarsa(λ)산법대상태공간적요구시리산적차공간교소,이실제문제중흔다계통적상태공간시련속적혹진관시리산적단공간교대,저취수요흔대적내존래존저상태동작대.위차제출조합신경망락,수선용자조직영사(SOM)신경망락대상태공간진행자괄응양화,연후재차기출상용BP망락의합Q함수.해방법실현료Sarsa(λ)산법재련속화대규모상태공간적범화.최후,실험결과표명료해방법적유효성.