计算机应用研究
計算機應用研究
계산궤응용연구
APPLICATION RESEARCH OF COMPUTERS
2010年
10期
3662-3665,3669
,共5页
李兆斌%徐昕%吴军%连传强
李兆斌%徐昕%吳軍%連傳彊
리조빈%서흔%오군%련전강
增强学习%值函数%近似策略迭代%平滑性
增彊學習%值函數%近似策略迭代%平滑性
증강학습%치함수%근사책략질대%평활성
研究了几类典型增强学习算法的性能评估问题,包括Q-学习算法、最小二乘策略迭代(LSPI)和基于核的最小二乘策略迭代 (KLSPI)算法等,重点针对Markov决策问题(MDP)的值函数平滑特性对算法性能的影响进行了研究.分别利用值函数非平滑的组合优化问题--旅行商问题(TSP)和值函数平滑的Mountain-Car运动控制问题,对不同增强学习算法的性能进行了测试和比较分析.分析了三种算法针对不同类型问题的各自特点,通过实验对比,验证了近似策略迭代算法,特别是KLSPI算法在解决值函数平滑的序贯决策问题时性能更优.通过分析实验结果表明,MDP值函数的平滑程度是影响近似策略迭代算法性能表现的重要因素.
研究瞭幾類典型增彊學習算法的性能評估問題,包括Q-學習算法、最小二乘策略迭代(LSPI)和基于覈的最小二乘策略迭代 (KLSPI)算法等,重點針對Markov決策問題(MDP)的值函數平滑特性對算法性能的影響進行瞭研究.分彆利用值函數非平滑的組閤優化問題--旅行商問題(TSP)和值函數平滑的Mountain-Car運動控製問題,對不同增彊學習算法的性能進行瞭測試和比較分析.分析瞭三種算法針對不同類型問題的各自特點,通過實驗對比,驗證瞭近似策略迭代算法,特彆是KLSPI算法在解決值函數平滑的序貫決策問題時性能更優.通過分析實驗結果錶明,MDP值函數的平滑程度是影響近似策略迭代算法性能錶現的重要因素.
연구료궤류전형증강학습산법적성능평고문제,포괄Q-학습산법、최소이승책략질대(LSPI)화기우핵적최소이승책략질대 (KLSPI)산법등,중점침대Markov결책문제(MDP)적치함수평활특성대산법성능적영향진행료연구.분별이용치함수비평활적조합우화문제--여행상문제(TSP)화치함수평활적Mountain-Car운동공제문제,대불동증강학습산법적성능진행료측시화비교분석.분석료삼충산법침대불동류형문제적각자특점,통과실험대비,험증료근사책략질대산법,특별시KLSPI산법재해결치함수평활적서관결책문제시성능경우.통과분석실험결과표명,MDP치함수적평활정도시영향근사책략질대산법성능표현적중요인소.