信息与控制
信息與控製
신식여공제
INFORMATION AND CONTROL
2009年
6期
673-679
,共7页
强化学习%定性动作%倒立摆
彊化學習%定性動作%倒立襬
강화학습%정성동작%도립파
reinforcement learning%qualitative action%inverted pendulum
在强化学习的研究中,常用的知识传递方法通过抽取系统最优策略的特征获得知识.由于所获得知识通常与系统参数有关,因此这些方法难以应用于状态转移概率随系统参数变化的一类任务中.本文提出一种基于定件模糊网络的分层Option算法,该算法用定性动作描述系统的次优策略,并用定性模糊网络抽取次优策略的共同特征获得与参数无关的知识,完成知识传递.倒立摆系统的摔制实验结果表明:定性模糊网络能有效地表示各种参数值不同的倒立摆系统所具有的控制规律,获取与系统参数无关的知识,将常用的知识传递方法从参数无关任务扩展到参数相关任务中.
在彊化學習的研究中,常用的知識傳遞方法通過抽取繫統最優策略的特徵穫得知識.由于所穫得知識通常與繫統參數有關,因此這些方法難以應用于狀態轉移概率隨繫統參數變化的一類任務中.本文提齣一種基于定件模糊網絡的分層Option算法,該算法用定性動作描述繫統的次優策略,併用定性模糊網絡抽取次優策略的共同特徵穫得與參數無關的知識,完成知識傳遞.倒立襬繫統的摔製實驗結果錶明:定性模糊網絡能有效地錶示各種參數值不同的倒立襬繫統所具有的控製規律,穫取與繫統參數無關的知識,將常用的知識傳遞方法從參數無關任務擴展到參數相關任務中.
재강화학습적연구중,상용적지식전체방법통과추취계통최우책략적특정획득지식.유우소획득지식통상여계통삼수유관,인차저사방법난이응용우상태전이개솔수계통삼수변화적일류임무중.본문제출일충기우정건모호망락적분층Option산법,해산법용정성동작묘술계통적차우책략,병용정성모호망락추취차우책략적공동특정획득여삼수무관적지식,완성지식전체.도립파계통적솔제실험결과표명:정성모호망락능유효지표시각충삼수치불동적도립파계통소구유적공제규률,획취여계통삼수무관적지식,장상용적지식전체방법종삼수무관임무확전도삼수상관임무중.
It is difficult to apply the common knowledge transfer method to the tasks that the state transfer probability changes with the parameters,as the knowledge obtained by extracting the common features of optimal policy is usually related to parameters.To solve this problem,this paper proposes a hierarchical option algorithm based on qualitative fuzzy networks.The algorithm learns a sub-optimal policy which is defined by qualitative actions,extracts the common features of suboptimal policy to obtain knowledge unrelated to parameters,and achieves knowledge transfer.Experiment results of inverted pendulum system are presented to wove that the qualitative fuzzy network Can describe the common control rules of the inverted pendulum systems with different parameter values and extends the common knowledge transfer method from parameter related tasks to parameter unrelated ones.