计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2010年
12期
186-189
,共4页
陈圣磊%谷瑞军%陈耿%薛晖
陳聖磊%穀瑞軍%陳耿%薛暉
진골뢰%곡서군%진경%설휘
策略梯度%自然梯度%TD(λ)%资格迹
策略梯度%自然梯度%TD(λ)%資格跡
책략제도%자연제도%TD(λ)%자격적
近年来强化学习中的策略梯度方法以其良好的收敛性能吸引了广泛的关注.研究了平均模型中的自然梯度算法,针对现有算法估计梯度时效率较低的问题,在梯度估计的值函数逼近中采用了TD(λ)方法.TD(λ)中的资格迹使学习经验的传播更加高效,从而能够降低梯度估计的方差,提升算法的收敛速度.车杆平衡系统仿真实验验证了所提算法的有效性.
近年來彊化學習中的策略梯度方法以其良好的收斂性能吸引瞭廣汎的關註.研究瞭平均模型中的自然梯度算法,針對現有算法估計梯度時效率較低的問題,在梯度估計的值函數逼近中採用瞭TD(λ)方法.TD(λ)中的資格跡使學習經驗的傳播更加高效,從而能夠降低梯度估計的方差,提升算法的收斂速度.車桿平衡繫統倣真實驗驗證瞭所提算法的有效性.
근년래강화학습중적책략제도방법이기량호적수렴성능흡인료엄범적관주.연구료평균모형중적자연제도산법,침대현유산법고계제도시효솔교저적문제,재제도고계적치함수핍근중채용료TD(λ)방법.TD(λ)중적자격적사학습경험적전파경가고효,종이능구강저제도고계적방차,제승산법적수렴속도.차간평형계통방진실험험증료소제산법적유효성.