CAJ | 학술논문

간체로 보기 번체로 보기

Q学习算法在库存控制中的应用
Q학습산법재고존공제중적응용
INVENTORY CONTROL USING Q-LEARNING

万方数据

自动化学报自動化學報 자동화학보
ACTA AUTOMATICA SINICA
1999年 2期 236-241 ,共6页

蒋国飞%吴沧浦蔣國飛%吳滄浦

장국비%오창포

Q学习%马尔可夫决策过程%库存控制%连续状态和决策空间%探索策略 Q學習%馬爾可伕決策過程%庫存控製%連續狀態和決策空間%探索策略
Q학습%마이가부결책과정%고존공제%련속상태화결책공간%탐색책략

Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力.
Q학습산법시Watkins제출적구해신식불완전마이가부결책문제적일충강화학습방법.저리제출료일충신적탐색책략,병장해책략화Q학습산법유효결합래구해일류전형적유련속상태화결책공간적고존공제문제.방진표명,해방법소구해적공제책략화용치질대법재모형이지적정황하소구득적최우책략비상핍근,종이증실료Q학습산법재일사계통모형미지적공정공제문제중적응용잠력.