计算机与现代化
計算機與現代化
계산궤여현대화
COMPUTER AND MODERNIZATION
2011年
7期
172-175
,共4页
特征选择%MI%IG%标准差
特徵選擇%MI%IG%標準差
특정선택%MI%IG%표준차
特征选择在文本挖掘技术中是一个关键部分.训练集中的文本逐个经过分词后,可形成文本分类系统的全特征空间,一般情况下,这个空间的维数都会较大,可达到几十万维.经过特征选择之后,在降低噪声的同时,特征空间的维数得以压缩,最终能提高分类算法的速度和分类精度.本文从传统的Ml(Mutual Infomation)出发,并对它进行改造,最后通过实验验证改进算法的有效性.
特徵選擇在文本挖掘技術中是一箇關鍵部分.訓練集中的文本逐箇經過分詞後,可形成文本分類繫統的全特徵空間,一般情況下,這箇空間的維數都會較大,可達到幾十萬維.經過特徵選擇之後,在降低譟聲的同時,特徵空間的維數得以壓縮,最終能提高分類算法的速度和分類精度.本文從傳統的Ml(Mutual Infomation)齣髮,併對它進行改造,最後通過實驗驗證改進算法的有效性.
특정선택재문본알굴기술중시일개관건부분.훈련집중적문본축개경과분사후,가형성문본분류계통적전특정공간,일반정황하,저개공간적유수도회교대,가체도궤십만유.경과특정선택지후,재강저조성적동시,특정공간적유수득이압축,최종능제고분류산법적속도화분류정도.본문종전통적Ml(Mutual Infomation)출발,병대타진행개조,최후통과실험험증개진산법적유효성.