智能系统学报
智能繫統學報
지능계통학보
CAAI TRANSACTIONS ON INTELLIGENT SYSTEMS
2009年
3期
208-212
,共5页
金卓军%钱徽%陈沈轶%朱淼良
金卓軍%錢徽%陳瀋軼%硃淼良
금탁군%전휘%진침질%주묘량
学徒学习%回报函数%逆向增强学习%最大化边际规划
學徒學習%迴報函數%逆嚮增彊學習%最大化邊際規劃
학도학습%회보함수%역향증강학습%최대화변제규화
通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学习方法.分别在回报函数为线性和非线性条件下讨论,并且在线性条件下比较了2类方法--基于逆向增强学习(IRL)和最大化边际规划(MMP)的学徒学习.前者有较为快速的近似算法,但对于演示的最优性作了较强的假设;后者形式上更易于扩展,但计算量大.最后,提出了该领域现在还存在的问题和未来的研究方向,如把学徒学习应用于POMDP环境下,用PBVI等近似算法或者通过PCA等降维方法对数据进行学习特征的提取,从而减少高维度带来的大计算量问题.
通過研究基于迴報函數學習的學徒學習的髮展歷史和目前的主要工作,概述瞭基于迴報函數學習的學徒學習方法.分彆在迴報函數為線性和非線性條件下討論,併且在線性條件下比較瞭2類方法--基于逆嚮增彊學習(IRL)和最大化邊際規劃(MMP)的學徒學習.前者有較為快速的近似算法,但對于縯示的最優性作瞭較彊的假設;後者形式上更易于擴展,但計算量大.最後,提齣瞭該領域現在還存在的問題和未來的研究方嚮,如把學徒學習應用于POMDP環境下,用PBVI等近似算法或者通過PCA等降維方法對數據進行學習特徵的提取,從而減少高維度帶來的大計算量問題.
통과연구기우회보함수학습적학도학습적발전역사화목전적주요공작,개술료기우회보함수학습적학도학습방법.분별재회보함수위선성화비선성조건하토론,병차재선성조건하비교료2류방법--기우역향증강학습(IRL)화최대화변제규화(MMP)적학도학습.전자유교위쾌속적근사산법,단대우연시적최우성작료교강적가설;후자형식상경역우확전,단계산량대.최후,제출료해영역현재환존재적문제화미래적연구방향,여파학도학습응용우POMDP배경하,용PBVI등근사산법혹자통과PCA등강유방법대수거진행학습특정적제취,종이감소고유도대래적대계산량문제.