计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2008年
5期
187-189
,共3页
熊忠阳%黎刚%陈小莉%陈伟
熊忠暘%黎剛%陳小莉%陳偉
웅충양%려강%진소리%진위
文本表示%向量空间模型%特征选择%TFIDF
文本錶示%嚮量空間模型%特徵選擇%TFIDF
문본표시%향량공간모형%특정선택%TFIDF
文本的形式化表示一直是信息检索领域关注的基础性问题.向量空间模型(Vector Space Model)中的tf.idf文本表示是该领域里得到广泛应用,并且取得较好效果的一种文本表示方法.词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一.但是其IDF的计算,并没有考虑到特征项在类间的分布情况,也没有考虑到在类内分布相对均匀的特征项的权重应该比分布不均匀的要高,应该赋予其较高的权重.用改进的TFIDF选择特征词条、用KNN分类算法和遗传算法训练分类器来验证其有效性,实验表明改进的策略是可行的.
文本的形式化錶示一直是信息檢索領域關註的基礎性問題.嚮量空間模型(Vector Space Model)中的tf.idf文本錶示是該領域裏得到廣汎應用,併且取得較好效果的一種文本錶示方法.詞語在文本集閤中的分佈比例量上的差異是決定詞語錶達文本內容的重要因素之一.但是其IDF的計算,併沒有攷慮到特徵項在類間的分佈情況,也沒有攷慮到在類內分佈相對均勻的特徵項的權重應該比分佈不均勻的要高,應該賦予其較高的權重.用改進的TFIDF選擇特徵詞條、用KNN分類算法和遺傳算法訓練分類器來驗證其有效性,實驗錶明改進的策略是可行的.
문본적형식화표시일직시신식검색영역관주적기출성문제.향량공간모형(Vector Space Model)중적tf.idf문본표시시해영역리득도엄범응용,병차취득교호효과적일충문본표시방법.사어재문본집합중적분포비례량상적차이시결정사어표체문본내용적중요인소지일.단시기IDF적계산,병몰유고필도특정항재류간적분포정황,야몰유고필도재류내분포상대균균적특정항적권중응해비분포불균균적요고,응해부여기교고적권중.용개진적TFIDF선택특정사조、용KNN분류산법화유전산법훈련분류기래험증기유효성,실험표명개진적책략시가행적.