系统仿真学报
繫統倣真學報
계통방진학보
JOURNAL OF SYSTEM SIMULATION
2008年
14期
3702-3706
,共5页
WANG Xue-song%田西兰%CHENG Yu-hu%马小平
WANG Xue-song%田西蘭%CHENG Yu-hu%馬小平
WANG Xue-song%전서란%CHENG Yu-hu%마소평
最小二乘支持向量机%强化学习%Q学习%泛化
最小二乘支持嚮量機%彊化學習%Q學習%汎化
최소이승지지향량궤%강화학습%Q학습%범화
将连续状态空间下的Q学习构建为最小二乘支持向量机的回归估计问题,利用最小二乘支持向量机良好的泛化以及非线性逼近性能实现由系统状态-动作对到Q值函数的映射.为了保证计算速度以及适应Q学习系统在线学习的需要,最小二乘支持向量机的训练样本是窗式移动的,即在Q学习系统学习的同时获取样本数据并进行最小二乘支持向量机的训练.小车爬山控制问题的仿真结果表明该方法学习效率高,能够有效解决强化学习系统连续状态空间的泛化问题.
將連續狀態空間下的Q學習構建為最小二乘支持嚮量機的迴歸估計問題,利用最小二乘支持嚮量機良好的汎化以及非線性逼近性能實現由繫統狀態-動作對到Q值函數的映射.為瞭保證計算速度以及適應Q學習繫統在線學習的需要,最小二乘支持嚮量機的訓練樣本是窗式移動的,即在Q學習繫統學習的同時穫取樣本數據併進行最小二乘支持嚮量機的訓練.小車爬山控製問題的倣真結果錶明該方法學習效率高,能夠有效解決彊化學習繫統連續狀態空間的汎化問題.
장련속상태공간하적Q학습구건위최소이승지지향량궤적회귀고계문제,이용최소이승지지향량궤량호적범화이급비선성핍근성능실현유계통상태-동작대도Q치함수적영사.위료보증계산속도이급괄응Q학습계통재선학습적수요,최소이승지지향량궤적훈련양본시창식이동적,즉재Q학습계통학습적동시획취양본수거병진행최소이승지지향량궤적훈련.소차파산공제문제적방진결과표명해방법학습효솔고,능구유효해결강화학습계통련속상태공간적범화문제.