CAJ | 학술논문

策略迭代是一种迭代地评估和改进控制策略的强化学习方法.采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数据有效性.针对在线的最小二乘策略迭代方法对样本数据的利用不充分、每个样本仅使用一次就被丢弃的问题,提出一种批量最小二乘策略迭代算法(BLSPI),并从理论上证明其收敛性.BLSPI算法将批量更新方法与在线最小二乘策略迭代方法相结合,在线保存生成的样本数据,多次重复使用这些样本数据并结合最小二乘方法来更新控制策略.将BLSPI算法用于倒立摆实验平台,实验结果表明,该算法可以有效利用之前的经验知识,提高经验利用率,加快收敛速度.
책략질대시일충질대지평고화개진공제책략적강화학습방법.채용최소이승적책략평고방법가이종경험수거중제취출경다유용신식,제고수거유효성.침대재선적최소이승책략질대방법대양본수거적이용불충분、매개양본부사용일차취피주기적문제,제출일충비량최소이승책략질대산법(BLSPI),병종이론상증명기수렴성.BLSPI산법장비량경신방법여재선최소이승책략질대방법상결합,재선보존생성적양본수거,다차중복사용저사양본수거병결합최소이승방법래경신공제책략.장BLSPI산법용우도립파실험평태,실험결과표명,해산법가이유효이용지전적경험지식,제고경험이용솔,가쾌수렴속도.