计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
1999年
12期
1430-1436
,共7页
张汝波%杨广铭%顾国昌%张国印
張汝波%楊廣銘%顧國昌%張國印
장여파%양엄명%고국창%장국인
Q-学习%神经网络%智能机器人%局部路径规划
Q-學習%神經網絡%智能機器人%跼部路徑規劃
Q-학습%신경망락%지능궤기인%국부로경규화
强化学习一词来自于行为心理学,这门学科把行为学习看成反复试验的过程,从而把环境状态映射成相应的动作.在设计智能机器人过程中,如何来实现行为主义的思想、在与环境的交互中学习行为动作?文中把机器人在未知环境中为躲避障碍所采取的动作看作一种行为,采用强化学习方法来实现智能机器人避碰行为学习.Q-学习算法是类似于动态规划的一种强化学习方法,文中在介绍了Q-学习的基本算法之后,提出了具有竞争思想和自组织机制的Q-学习神经网络学习算法;然后研究了该算法在智能机器人局部路径规划中的应用,在文中的最后给出了详细的仿真结果.
彊化學習一詞來自于行為心理學,這門學科把行為學習看成反複試驗的過程,從而把環境狀態映射成相應的動作.在設計智能機器人過程中,如何來實現行為主義的思想、在與環境的交互中學習行為動作?文中把機器人在未知環境中為躲避障礙所採取的動作看作一種行為,採用彊化學習方法來實現智能機器人避踫行為學習.Q-學習算法是類似于動態規劃的一種彊化學習方法,文中在介紹瞭Q-學習的基本算法之後,提齣瞭具有競爭思想和自組織機製的Q-學習神經網絡學習算法;然後研究瞭該算法在智能機器人跼部路徑規劃中的應用,在文中的最後給齣瞭詳細的倣真結果.
강화학습일사래자우행위심이학,저문학과파행위학습간성반복시험적과정,종이파배경상태영사성상응적동작.재설계지능궤기인과정중,여하래실현행위주의적사상、재여배경적교호중학습행위동작?문중파궤기인재미지배경중위타피장애소채취적동작간작일충행위,채용강화학습방법래실현지능궤기인피팽행위학습.Q-학습산법시유사우동태규화적일충강화학습방법,문중재개소료Q-학습적기본산법지후,제출료구유경쟁사상화자조직궤제적Q-학습신경망락학습산법;연후연구료해산법재지능궤기인국부로경규화중적응용,재문중적최후급출료상세적방진결과.