电子学报
電子學報
전자학보
ACTA ELECTRONICA SINICA
2008年
z1期
138-143
,共6页
半监督文本分类%Co-training%特征视图%差异性评估%标注文本%末标注文本
半鑑督文本分類%Co-training%特徵視圖%差異性評估%標註文本%末標註文本
반감독문본분류%Co-training%특정시도%차이성평고%표주문본%말표주문본
Co-training箅法要求两个特征视图满足一致性和独立性假设,但是,许多实际应用国不存自然的划分且满足这种假没的两个视图,且直接评估两个视图的独市性有一定的难度.分析Co-training的理论假设,本文把寻找两个满足一致性和独立性特征视图的目标,转变成寻找两个既满足一定的正确性,又存在较大的差异性的两个基分类器的问题.首先利用特征评估函数建市多个特征视图,每个特征视网包含足够的信息训练生成一个基分类器,然后通过评估基分类器之间的差异性间接评估二者的独立性,选择两个满足一定的正确性和差异性比较大的基分类器协同训练.根据每个视图上采用的分类算法是否相同,提出了两种改进算法TV-SC和TV-DC.实验表明改进的TV-SC和TV-DC算法明显优于基于随机分割特征视图的Co-Rnd算法,而且TV-DC算法的分类效果要优于TV-SC算法.
Co-training箄法要求兩箇特徵視圖滿足一緻性和獨立性假設,但是,許多實際應用國不存自然的劃分且滿足這種假沒的兩箇視圖,且直接評估兩箇視圖的獨市性有一定的難度.分析Co-training的理論假設,本文把尋找兩箇滿足一緻性和獨立性特徵視圖的目標,轉變成尋找兩箇既滿足一定的正確性,又存在較大的差異性的兩箇基分類器的問題.首先利用特徵評估函數建市多箇特徵視圖,每箇特徵視網包含足夠的信息訓練生成一箇基分類器,然後通過評估基分類器之間的差異性間接評估二者的獨立性,選擇兩箇滿足一定的正確性和差異性比較大的基分類器協同訓練.根據每箇視圖上採用的分類算法是否相同,提齣瞭兩種改進算法TV-SC和TV-DC.實驗錶明改進的TV-SC和TV-DC算法明顯優于基于隨機分割特徵視圖的Co-Rnd算法,而且TV-DC算法的分類效果要優于TV-SC算法.
Co-training폐법요구량개특정시도만족일치성화독립성가설,단시,허다실제응용국불존자연적화분차만족저충가몰적량개시도,차직접평고량개시도적독시성유일정적난도.분석Co-training적이론가설,본문파심조량개만족일치성화독립성특정시도적목표,전변성심조량개기만족일정적정학성,우존재교대적차이성적량개기분류기적문제.수선이용특정평고함수건시다개특정시도,매개특정시망포함족구적신식훈련생성일개기분류기,연후통과평고기분류기지간적차이성간접평고이자적독립성,선택량개만족일정적정학성화차이성비교대적기분류기협동훈련.근거매개시도상채용적분류산법시부상동,제출료량충개진산법TV-SC화TV-DC.실험표명개진적TV-SC화TV-DC산법명현우우기우수궤분할특정시도적Co-Rnd산법,이차TV-DC산법적분류효과요우우TV-SC산법.