科学之友
科學之友
과학지우
FRIEND OF SCIENCE AMATEURS
2011年
6期
141-142
,共2页
强化学习%Q-学习%探索区域扩张%模拟退火%神经网络
彊化學習%Q-學習%探索區域擴張%模擬退火%神經網絡
강화학습%Q-학습%탐색구역확장%모의퇴화%신경망락
基本Q-学习算法总是利用当前最优策略进行动作的选取,这样容易陷入局部最优.文章在模拟退火强化学习基础上提出了基于探索区域扩张的Q-学习,加入原地探索策略,提高了找到目标的效率;引入了探索区域扩张策略,避免了初始时在整个环境中加入探索的盲目性,提高了学习效率;加入算法的自主学习结束条件,避免了找到最优路径后的重复学习,节省了学习时间.仿真实验验证了算法的有效性.
基本Q-學習算法總是利用噹前最優策略進行動作的選取,這樣容易陷入跼部最優.文章在模擬退火彊化學習基礎上提齣瞭基于探索區域擴張的Q-學習,加入原地探索策略,提高瞭找到目標的效率;引入瞭探索區域擴張策略,避免瞭初始時在整箇環境中加入探索的盲目性,提高瞭學習效率;加入算法的自主學習結束條件,避免瞭找到最優路徑後的重複學習,節省瞭學習時間.倣真實驗驗證瞭算法的有效性.
기본Q-학습산법총시이용당전최우책략진행동작적선취,저양용역함입국부최우.문장재모의퇴화강화학습기출상제출료기우탐색구역확장적Q-학습,가입원지탐색책략,제고료조도목표적효솔;인입료탐색구역확장책략,피면료초시시재정개배경중가입탐색적맹목성,제고료학습효솔;가입산법적자주학습결속조건,피면료조도최우로경후적중복학습,절성료학습시간.방진실험험증료산법적유효성.