自动化学报
自動化學報
자동화학보
ACTA AUTOMATICA SINICA
1998年
5期
662-666
,共5页
Q学习%BP网络%学习控制%倒立摆系统%高斯噪声
Q學習%BP網絡%學習控製%倒立襬繫統%高斯譟聲
Q학습%BP망락%학습공제%도립파계통%고사조성
Q学习是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.将Q学习算法和BP神经网络有效结合,实现了状态未离散化的倒立摆的无模型学习控制.仿真表明:该方法不仅能成功解决确定和随机倒立摆模型的平衡控制,而且和Anderson[2]的AHC (Adaptive Heuristic Critic)等方法相比,具有更好的学习效果.
Q學習是Watkins[1]提齣的求解信息不完全馬爾可伕決策問題的一種彊化學習方法.將Q學習算法和BP神經網絡有效結閤,實現瞭狀態未離散化的倒立襬的無模型學習控製.倣真錶明:該方法不僅能成功解決確定和隨機倒立襬模型的平衡控製,而且和Anderson[2]的AHC (Adaptive Heuristic Critic)等方法相比,具有更好的學習效果.
Q학습시Watkins[1]제출적구해신식불완전마이가부결책문제적일충강화학습방법.장Q학습산법화BP신경망락유효결합,실현료상태미리산화적도립파적무모형학습공제.방진표명:해방법불부능성공해결학정화수궤도립파모형적평형공제,이차화Anderson[2]적AHC (Adaptive Heuristic Critic)등방법상비,구유경호적학습효과.