北京交通大学学报(自然科学版)
北京交通大學學報(自然科學版)
북경교통대학학보(자연과학판)
JOURNAL OF BEIJING JIAOTONG UNIVERSITY
2006年
5期
1-5
,共5页
强化学习%马尔科夫决策过程%探索策略%倒立摆
彊化學習%馬爾科伕決策過程%探索策略%倒立襬
강화학습%마이과부결책과정%탐색책략%도립파
针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法.该算法采用两层结构,底层利用系统模型,采用贪婪策略选择探索动作,完成强化学习任务.而高层通过对状态区域的分析,指导底层的学习,纠正底层错误的动作.高层对底层的学习的指导作用主要包括:在泛化过程中,对泛化区域中正确与错误的状态判断值分别采用不同的学习因子,减小泛化对算法收敛性的影响;建立状态区域的推理规则,用规则指导未知状态区域的学习,加快学习速度;利用系统模型和推理规则,将探索过程集中于系统的可控区域,克服采用随机探索策略需要系统全状态空间内搜索的问题.本文提出的算法能在较短的时间内实现系统的初步控制,其有效性在二级倒立摆的控制中得到验证.
針對彊化學習算法的狀態值汎化和隨機探索策略在確定性MDP繫統控製中存在著學習效率低的問題,本文提齣基于模型的層次化彊化學習算法.該算法採用兩層結構,底層利用繫統模型,採用貪婪策略選擇探索動作,完成彊化學習任務.而高層通過對狀態區域的分析,指導底層的學習,糾正底層錯誤的動作.高層對底層的學習的指導作用主要包括:在汎化過程中,對汎化區域中正確與錯誤的狀態判斷值分彆採用不同的學習因子,減小汎化對算法收斂性的影響;建立狀態區域的推理規則,用規則指導未知狀態區域的學習,加快學習速度;利用繫統模型和推理規則,將探索過程集中于繫統的可控區域,剋服採用隨機探索策略需要繫統全狀態空間內搜索的問題.本文提齣的算法能在較短的時間內實現繫統的初步控製,其有效性在二級倒立襬的控製中得到驗證.
침대강화학습산법적상태치범화화수궤탐색책략재학정성MDP계통공제중존재착학습효솔저적문제,본문제출기우모형적층차화강화학습산법.해산법채용량층결구,저층이용계통모형,채용탐람책략선택탐색동작,완성강화학습임무.이고층통과대상태구역적분석,지도저층적학습,규정저층착오적동작.고층대저층적학습적지도작용주요포괄:재범화과정중,대범화구역중정학여착오적상태판단치분별채용불동적학습인자,감소범화대산법수렴성적영향;건립상태구역적추리규칙,용규칙지도미지상태구역적학습,가쾌학습속도;이용계통모형화추리규칙,장탐색과정집중우계통적가공구역,극복채용수궤탐색책략수요계통전상태공간내수색적문제.본문제출적산법능재교단적시간내실현계통적초보공제,기유효성재이급도립파적공제중득도험증.