计算机测量与控制
計算機測量與控製
계산궤측량여공제
Computer Measurement & Control
2015年
11期
3713-3716,3720
,共5页
模仿学习%概率模型%轨迹匹配%高斯过程%控制策略
模倣學習%概率模型%軌跡匹配%高斯過程%控製策略
모방학습%개솔모형%궤적필배%고사과정%공제책략
imitation learning%probability model%trajectory matching%Gaussian process%control policy
模仿学习是机器人仿生机制研究的主要内容之一,即通过观察、理解、学习、模仿示教行为实现机器人的仿生特性;基于高斯过程分别表达采集离散示教信号所构成的示教轨迹和含有未知参数策略的模仿轨迹,构建模仿学习方法框架,将概率模型匹配引入到模仿学习中,以KL散度为代价函数比较两种轨迹的概率分布,运用梯度下降法寻求使KL散度最小的最优模仿控制策略,将策略应用于模仿机器人以完成与示教相同的模仿任务;以关节型机器人的机械臂摆动行为模仿为学习任务进行仿真,结果表明基于概率轨迹匹配的模仿学习方法能够实现机械臂摆动行为模仿,学习过程较传统方法简易且学习效果较好.
模倣學習是機器人倣生機製研究的主要內容之一,即通過觀察、理解、學習、模倣示教行為實現機器人的倣生特性;基于高斯過程分彆錶達採集離散示教信號所構成的示教軌跡和含有未知參數策略的模倣軌跡,構建模倣學習方法框架,將概率模型匹配引入到模倣學習中,以KL散度為代價函數比較兩種軌跡的概率分佈,運用梯度下降法尋求使KL散度最小的最優模倣控製策略,將策略應用于模倣機器人以完成與示教相同的模倣任務;以關節型機器人的機械臂襬動行為模倣為學習任務進行倣真,結果錶明基于概率軌跡匹配的模倣學習方法能夠實現機械臂襬動行為模倣,學習過程較傳統方法簡易且學習效果較好.
모방학습시궤기인방생궤제연구적주요내용지일,즉통과관찰、리해、학습、모방시교행위실현궤기인적방생특성;기우고사과정분별표체채집리산시교신호소구성적시교궤적화함유미지삼수책략적모방궤적,구건모방학습방법광가,장개솔모형필배인입도모방학습중,이KL산도위대개함수비교량충궤적적개솔분포,운용제도하강법심구사KL산도최소적최우모방공제책략,장책략응용우모방궤기인이완성여시교상동적모방임무;이관절형궤기인적궤계비파동행위모방위학습임무진행방진,결과표명기우개솔궤적필배적모방학습방법능구실현궤계비파동행위모방,학습과정교전통방법간역차학습효과교호.