电子学报
電子學報
전자학보
ACTA ELECTRONICA SINICA
2014年
11期
2157-2161
,共5页
傅启明%刘全%尤树华%黄蔚%章晓芳
傅啟明%劉全%尤樹華%黃蔚%章曉芳
부계명%류전%우수화%황위%장효방
强化学习%VFT-Sarsa算法%自模拟度量%值函数迁移
彊化學習%VFT-Sarsa算法%自模擬度量%值函數遷移
강화학습%VFT-Sarsa산법%자모의도량%치함수천이
reinforcement learning%VFT-Sarsa algorithm%bisimulation metric%value function transfer
知识迁移是当前机器学习领域的一个新的研究热点。其基本思想是通过将经验知识从历史任务到目标任务的迁移,达到提高算法收敛速度和收敛精度的目的。针对当前强化学习领域中经典算法收敛速度慢的问题,提出在学习过程中通过迁移值函数信息,减少算法收敛所需要的样本数量,加快算法的收敛速度。基于强化学习中经典的在策略Sarsa算法的学习框架,结合值函数迁移方法,优化算法初始值函数的设置,提出一种新的基于值函数迁移的快速Sarsa算法———VFT-Sarsa 。该算法在执行前期,通过引入自模拟度量方法,在状态空间以及动作空间一致的情况下,对目标任务中的状态与历史任务中的状态之间的距离进行度量,对其中相似并满足一定条件的状态进行值函数迁移,而后再通过学习算法进行学习。将VTF-Sarsa算法用于Random Walk问题,并与经典的Sarsa算法、Q学习算法以及具有较好收敛速度的QV算法进行比较,实验结果表明,该算法在保证收敛精度的基础上,具有更快的收敛速度。
知識遷移是噹前機器學習領域的一箇新的研究熱點。其基本思想是通過將經驗知識從歷史任務到目標任務的遷移,達到提高算法收斂速度和收斂精度的目的。針對噹前彊化學習領域中經典算法收斂速度慢的問題,提齣在學習過程中通過遷移值函數信息,減少算法收斂所需要的樣本數量,加快算法的收斂速度。基于彊化學習中經典的在策略Sarsa算法的學習框架,結閤值函數遷移方法,優化算法初始值函數的設置,提齣一種新的基于值函數遷移的快速Sarsa算法———VFT-Sarsa 。該算法在執行前期,通過引入自模擬度量方法,在狀態空間以及動作空間一緻的情況下,對目標任務中的狀態與歷史任務中的狀態之間的距離進行度量,對其中相似併滿足一定條件的狀態進行值函數遷移,而後再通過學習算法進行學習。將VTF-Sarsa算法用于Random Walk問題,併與經典的Sarsa算法、Q學習算法以及具有較好收斂速度的QV算法進行比較,實驗結果錶明,該算法在保證收斂精度的基礎上,具有更快的收斂速度。
지식천이시당전궤기학습영역적일개신적연구열점。기기본사상시통과장경험지식종역사임무도목표임무적천이,체도제고산법수렴속도화수렴정도적목적。침대당전강화학습영역중경전산법수렴속도만적문제,제출재학습과정중통과천이치함수신식,감소산법수렴소수요적양본수량,가쾌산법적수렴속도。기우강화학습중경전적재책략Sarsa산법적학습광가,결합치함수천이방법,우화산법초시치함수적설치,제출일충신적기우치함수천이적쾌속Sarsa산법———VFT-Sarsa 。해산법재집행전기,통과인입자모의도량방법,재상태공간이급동작공간일치적정황하,대목표임무중적상태여역사임무중적상태지간적거리진행도량,대기중상사병만족일정조건적상태진행치함수천이,이후재통과학습산법진행학습。장VTF-Sarsa산법용우Random Walk문제,병여경전적Sarsa산법、Q학습산법이급구유교호수렴속도적QV산법진행비교,실험결과표명,해산법재보증수렴정도적기출상,구유경쾌적수렴속도。
Knowledge Transfer has gradually became a research hot pot in machine learning ,which tries to transfer the knowledge from the historical tasks to the target task in order to speed up the convergence rate and improve the performance of al-gorithms .With respect to the slow convergence rate of traditional reinforcement learning algorithms ,this paper proposed to transfer the value function between different similar learning tasks with the same state space and action space ,which tries to reduce the need-ed samples in the target task and speed up the convergence rate .Based on the framework of on-policy Sarsa algorithm ,combined with the value function transfer method ,this paper put forward a novel fast Sarsa algorithm based on the value function transfer—VFT-Sarsa .At the beginning ,the algorithm uses Bisimulation metric to measure the distance between states in target task and histor-ical task on the condition that these tasks have the same state space and action space ,transfers the value function if the distance meets some condition ,and finally executes the learning algorithm .At the end ,apply the proposed algorithm in Random Walk ,com-pared with Sarsa algorithm ,Q-Learning and QV algorithm ,the results show that the proposed algorithm can get a better convergence rate with a good performance .