计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2012年
8期
2250-2252,2257
,共4页
潜在狄利克雷分配模型%互信息%评价函数
潛在狄利剋雷分配模型%互信息%評價函數
잠재적리극뢰분배모형%호신식%평개함수
为解决互信息(MI)在特征选取中的类别缺失和倾向低频词问题,提出LDA-σ方法.该方法使用潜在狄利克雷分配模型(LDA)提取潜在主题,以“词—主题”间互信息的标准差作为特征评估函数.在Reuters-21578语料集上提取特征词并进行分类,LDA-σ方法的微平均F1最高达0.9096;宏平均F1优于其他算法,最高达0.7823.实验表明,LDA-σ方法可用于文本特征选取.
為解決互信息(MI)在特徵選取中的類彆缺失和傾嚮低頻詞問題,提齣LDA-σ方法.該方法使用潛在狄利剋雷分配模型(LDA)提取潛在主題,以“詞—主題”間互信息的標準差作為特徵評估函數.在Reuters-21578語料集上提取特徵詞併進行分類,LDA-σ方法的微平均F1最高達0.9096;宏平均F1優于其他算法,最高達0.7823.實驗錶明,LDA-σ方法可用于文本特徵選取.
위해결호신식(MI)재특정선취중적유별결실화경향저빈사문제,제출LDA-σ방법.해방법사용잠재적리극뢰분배모형(LDA)제취잠재주제,이“사—주제”간호신식적표준차작위특정평고함수.재Reuters-21578어료집상제취특정사병진행분류,LDA-σ방법적미평균F1최고체0.9096;굉평균F1우우기타산법,최고체0.7823.실험표명,LDA-σ방법가용우문본특정선취.