计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2002年
11期
65-67
,共3页
激励学习%Q学习%最优费用函数%关联值递归%Markov决策过程
激勵學習%Q學習%最優費用函數%關聯值遞歸%Markov決策過程
격려학습%Q학습%최우비용함수%관련치체귀%Markov결책과정
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来求解决策问题.求解最优决策一般有两种途径,一种是求最大奖赏方法,另一种是求最优费用方法.该文利用求解最优费用函数的方法给出了一种新的Q学习算法.Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法.文章从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立,可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来.
一箇激勵學習Agent通過學習一箇從狀態到動作映射的最優策略來求解決策問題.求解最優決策一般有兩種途徑,一種是求最大獎賞方法,另一種是求最優費用方法.該文利用求解最優費用函數的方法給齣瞭一種新的Q學習算法.Q學習算法是求解信息不完全Markov決策問題的一種有效激勵學習方法.文章從求解最優費用函數的方法齣髮,給齣瞭Q學習的關聯值遞歸算法,這種方法的建立,可以使得動態規劃(DP)算法中的許多結論直接應用到Q學習的研究中來.
일개격려학습Agent통과학습일개종상태도동작영사적최우책략래구해결책문제.구해최우결책일반유량충도경,일충시구최대장상방법,령일충시구최우비용방법.해문이용구해최우비용함수적방법급출료일충신적Q학습산법.Q학습산법시구해신식불완전Markov결책문제적일충유효격려학습방법.문장종구해최우비용함수적방법출발,급출료Q학습적관련치체귀산법,저충방법적건립,가이사득동태규화(DP)산법중적허다결론직접응용도Q학습적연구중래.