计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2008年
11期
1874-1881
,共8页
唐焕玲%林正奎%鲁明羽%邬俊
唐煥玲%林正奎%魯明羽%鄔俊
당환령%림정규%로명우%오준
半监督分类%Co-Training%标注文本%未标注文本%相互独立性模型%差异性评估
半鑑督分類%Co-Training%標註文本%未標註文本%相互獨立性模型%差異性評估
반감독분류%Co-Training%표주문본%미표주문본%상호독립성모형%차이성평고
Co-Training算法要求两个特征视图满足一致性和独立性,但是,许多应用中不存在自然划分且满足这种假设的两个视图.为此,提出利用互信息(MI)或者CHI统计量评估特征之间的相互独立性,建立特征相互独立性模型(MID-Model).基于该模型,提出了新的特征子集划分方法PMID-MI与PMID-CHI算法,能有效地将一个特征集合划分成两个独立性较强的子集.并且利用多种差异评估法,进一步验证两个子集的独立性.基分类器之间的差异性能够减少两个基分类器给同一个未标注文本都标注错误的可能性.最后,提出了对Co-Training的改进算法SC-PMID.实验结果表明SC-PMID算法能够明显提高半监督分类精度.
Co-Training算法要求兩箇特徵視圖滿足一緻性和獨立性,但是,許多應用中不存在自然劃分且滿足這種假設的兩箇視圖.為此,提齣利用互信息(MI)或者CHI統計量評估特徵之間的相互獨立性,建立特徵相互獨立性模型(MID-Model).基于該模型,提齣瞭新的特徵子集劃分方法PMID-MI與PMID-CHI算法,能有效地將一箇特徵集閤劃分成兩箇獨立性較彊的子集.併且利用多種差異評估法,進一步驗證兩箇子集的獨立性.基分類器之間的差異性能夠減少兩箇基分類器給同一箇未標註文本都標註錯誤的可能性.最後,提齣瞭對Co-Training的改進算法SC-PMID.實驗結果錶明SC-PMID算法能夠明顯提高半鑑督分類精度.
Co-Training산법요구량개특정시도만족일치성화독립성,단시,허다응용중불존재자연화분차만족저충가설적량개시도.위차,제출이용호신식(MI)혹자CHI통계량평고특정지간적상호독립성,건립특정상호독립성모형(MID-Model).기우해모형,제출료신적특정자집화분방법PMID-MI여PMID-CHI산법,능유효지장일개특정집합화분성량개독립성교강적자집.병차이용다충차이평고법,진일보험증량개자집적독립성.기분류기지간적차이성능구감소량개기분류기급동일개미표주문본도표주착오적가능성.최후,제출료대Co-Training적개진산법SC-PMID.실험결과표명SC-PMID산법능구명현제고반감독분류정도.