自动化学报
自動化學報
자동화학보
ACTA AUTOMATICA SINICA
1999年
2期
236-241
,共6页
Q学习%马尔可夫决策过程%库存控制%连续状态和决策空间%探索策略
Q學習%馬爾可伕決策過程%庫存控製%連續狀態和決策空間%探索策略
Q학습%마이가부결책과정%고존공제%련속상태화결책공간%탐색책략
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力.
Q學習算法是Watkins提齣的求解信息不完全馬爾可伕決策問題的一種彊化學習方法.這裏提齣瞭一種新的探索策略,併將該策略和Q學習算法有效結閤來求解一類典型的有連續狀態和決策空間的庫存控製問題.倣真錶明,該方法所求解的控製策略和用值迭代法在模型已知的情況下所求得的最優策略非常逼近,從而證實瞭Q學習算法在一些繫統模型未知的工程控製問題中的應用潛力.
Q학습산법시Watkins제출적구해신식불완전마이가부결책문제적일충강화학습방법.저리제출료일충신적탐색책략,병장해책략화Q학습산법유효결합래구해일류전형적유련속상태화결책공간적고존공제문제.방진표명,해방법소구해적공제책략화용치질대법재모형이지적정황하소구득적최우책략비상핍근,종이증실료Q학습산법재일사계통모형미지적공정공제문제중적응용잠력.