计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2014年
9期
232-238
,共7页
周鑫%刘全%傅启明%肖飞
週鑫%劉全%傅啟明%肖飛
주흠%류전%부계명%초비
强化学习%批量更新%最小二乘%策略迭代
彊化學習%批量更新%最小二乘%策略迭代
강화학습%비량경신%최소이승%책략질대
Reinforcement learning%Batch updating%Least-squares%Policy iteration
策略迭代是一种迭代地评估和改进控制策略的强化学习方法.采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数据有效性.针对在线的最小二乘策略迭代方法对样本数据的利用不充分、每个样本仅使用一次就被丢弃的问题,提出一种批量最小二乘策略迭代算法(BLSPI),并从理论上证明其收敛性.BLSPI算法将批量更新方法与在线最小二乘策略迭代方法相结合,在线保存生成的样本数据,多次重复使用这些样本数据并结合最小二乘方法来更新控制策略.将BLSPI算法用于倒立摆实验平台,实验结果表明,该算法可以有效利用之前的经验知识,提高经验利用率,加快收敛速度.
策略迭代是一種迭代地評估和改進控製策略的彊化學習方法.採用最小二乘的策略評估方法可以從經驗數據中提取齣更多有用信息,提高數據有效性.針對在線的最小二乘策略迭代方法對樣本數據的利用不充分、每箇樣本僅使用一次就被丟棄的問題,提齣一種批量最小二乘策略迭代算法(BLSPI),併從理論上證明其收斂性.BLSPI算法將批量更新方法與在線最小二乘策略迭代方法相結閤,在線保存生成的樣本數據,多次重複使用這些樣本數據併結閤最小二乘方法來更新控製策略.將BLSPI算法用于倒立襬實驗平檯,實驗結果錶明,該算法可以有效利用之前的經驗知識,提高經驗利用率,加快收斂速度.
책략질대시일충질대지평고화개진공제책략적강화학습방법.채용최소이승적책략평고방법가이종경험수거중제취출경다유용신식,제고수거유효성.침대재선적최소이승책략질대방법대양본수거적이용불충분、매개양본부사용일차취피주기적문제,제출일충비량최소이승책략질대산법(BLSPI),병종이론상증명기수렴성.BLSPI산법장비량경신방법여재선최소이승책략질대방법상결합,재선보존생성적양본수거,다차중복사용저사양본수거병결합최소이승방법래경신공제책략.장BLSPI산법용우도립파실험평태,실험결과표명,해산법가이유효이용지전적경험지식,제고경험이용솔,가쾌수렴속도.