模式识别与人工智能
模式識彆與人工智能
모식식별여인공지능
Moshi Shibie yu Rengong Zhineng
2006年
4期
439-444
,共6页
卢永奎%许旻%李永新%杜华生%吴月华%杨杰
盧永奎%許旻%李永新%杜華生%吳月華%楊傑
로영규%허민%리영신%두화생%오월화%양걸
模糊控制%在线自组织%Q强化学习%嵌入式系统%实时控制
模糊控製%在線自組織%Q彊化學習%嵌入式繫統%實時控製
모호공제%재선자조직%Q강화학습%감입식계통%실시공제
介绍一种新的在线自适应的动态模糊Q强化学习算法.系统根据从环境中得到的反馈评估已进行的决策,给予奖励和惩罚,更新系统的Q值,在线自动调整模糊控制的结构与参数.根据系统当前的环境状态以及模糊控制强化学习的Q值来决定当前规则的动作输出,并由模糊推理产生连续输出的动作.扩展贪心搜索策略,确保控制规则的各个输出动作在学习初期都被搜索过,避免陷入局部最优解.将有效跟踪算法和后设学习规则相结合,有效提高系统学习速率.在嵌入式平台中实时控制的实现以及和相关研究结论的对比验证该算法的优越性.
介紹一種新的在線自適應的動態模糊Q彊化學習算法.繫統根據從環境中得到的反饋評估已進行的決策,給予獎勵和懲罰,更新繫統的Q值,在線自動調整模糊控製的結構與參數.根據繫統噹前的環境狀態以及模糊控製彊化學習的Q值來決定噹前規則的動作輸齣,併由模糊推理產生連續輸齣的動作.擴展貪心搜索策略,確保控製規則的各箇輸齣動作在學習初期都被搜索過,避免陷入跼部最優解.將有效跟蹤算法和後設學習規則相結閤,有效提高繫統學習速率.在嵌入式平檯中實時控製的實現以及和相關研究結論的對比驗證該算法的優越性.
개소일충신적재선자괄응적동태모호Q강화학습산법.계통근거종배경중득도적반궤평고이진행적결책,급여장려화징벌,경신계통적Q치,재선자동조정모호공제적결구여삼수.근거계통당전적배경상태이급모호공제강화학습적Q치래결정당전규칙적동작수출,병유모호추리산생련속수출적동작.확전탐심수색책략,학보공제규칙적각개수출동작재학습초기도피수색과,피면함입국부최우해.장유효근종산법화후설학습규칙상결합,유효제고계통학습속솔.재감입식평태중실시공제적실현이급화상관연구결론적대비험증해산법적우월성.