计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2012年
7期
144-147
,共4页
多示例学习%重新表示%单示例学习%概念评估
多示例學習%重新錶示%單示例學習%概唸評估
다시례학습%중신표시%단시례학습%개념평고
在多示例学习问题中,训练数据集里面的每一个带标记的样本都是由多个示例组成的包,其最终目的是利用这一数据集去训练一个分类器,使得可以利用该分类器去预测还没有被标记的包.在以往的关于多示例学习问题的研究中,有的是通过修改现有的单示例学习算法来迎合多示例的需要,有的则是通过提出新的方法来挖掘示例与包之间的关系并利用挖掘的结果来解决问题.以改变包的表现形式为出发点,提出了一个解决多示例学习问题的算法——概念评估算法.该算法首先利用聚类算法将所有示例聚成d簇,每一个簇可以看作是包含在示例中的概念;然后利用原本用于文本检索的TF-IDF(Term Frequency-Inverse Document Frequency)算法来评估出每一个概念在每个包中的重要性;最后将包表示成一个d维向量——概念评估向量,其第i个位置表示第i个簇所代表的概念在某个包中的重要程度.经重新表示后,原有的多示例数据集已不再是“多示例”,以至于一些现有的单示例学习算法能够用来高效地解决多示例学习问题.
在多示例學習問題中,訓練數據集裏麵的每一箇帶標記的樣本都是由多箇示例組成的包,其最終目的是利用這一數據集去訓練一箇分類器,使得可以利用該分類器去預測還沒有被標記的包.在以往的關于多示例學習問題的研究中,有的是通過脩改現有的單示例學習算法來迎閤多示例的需要,有的則是通過提齣新的方法來挖掘示例與包之間的關繫併利用挖掘的結果來解決問題.以改變包的錶現形式為齣髮點,提齣瞭一箇解決多示例學習問題的算法——概唸評估算法.該算法首先利用聚類算法將所有示例聚成d簇,每一箇簇可以看作是包含在示例中的概唸;然後利用原本用于文本檢索的TF-IDF(Term Frequency-Inverse Document Frequency)算法來評估齣每一箇概唸在每箇包中的重要性;最後將包錶示成一箇d維嚮量——概唸評估嚮量,其第i箇位置錶示第i箇簇所代錶的概唸在某箇包中的重要程度.經重新錶示後,原有的多示例數據集已不再是“多示例”,以至于一些現有的單示例學習算法能夠用來高效地解決多示例學習問題.
재다시례학습문제중,훈련수거집리면적매일개대표기적양본도시유다개시례조성적포,기최종목적시이용저일수거집거훈련일개분류기,사득가이이용해분류기거예측환몰유피표기적포.재이왕적관우다시례학습문제적연구중,유적시통과수개현유적단시례학습산법래영합다시례적수요,유적칙시통과제출신적방법래알굴시례여포지간적관계병이용알굴적결과래해결문제.이개변포적표현형식위출발점,제출료일개해결다시례학습문제적산법——개념평고산법.해산법수선이용취류산법장소유시례취성d족,매일개족가이간작시포함재시례중적개념;연후이용원본용우문본검색적TF-IDF(Term Frequency-Inverse Document Frequency)산법래평고출매일개개념재매개포중적중요성;최후장포표시성일개d유향량——개념평고향량,기제i개위치표시제i개족소대표적개념재모개포중적중요정도.경중신표시후,원유적다시례수거집이불재시“다시례”,이지우일사현유적단시례학습산법능구용래고효지해결다시례학습문제.