北京理工大学学报
北京理工大學學報
북경리공대학학보
JOURNAL OF BEIJING INSTITUTE OF TECHNOLOGY
2006年
7期
589-592,597
,共5页
文本分类%特征词%词频%文本频%统计分布
文本分類%特徵詞%詞頻%文本頻%統計分佈
문본분류%특정사%사빈%문본빈%통계분포
指出基于TfIdf的常用文本特征提取方法在文本分类问题中的缺陷,进而提出使用特征词的分布状态、词频和文本频三者相结合的方式提取文本特征的观点,给出了计算特征词权重的新方法,提出了新的文本分类方法. 试验表明,该方法能够最大限度保留文本的特征,并且可有效避免向量空间模型中的维数灾难问题,能应用于大规模文本分类.
指齣基于TfIdf的常用文本特徵提取方法在文本分類問題中的缺陷,進而提齣使用特徵詞的分佈狀態、詞頻和文本頻三者相結閤的方式提取文本特徵的觀點,給齣瞭計算特徵詞權重的新方法,提齣瞭新的文本分類方法. 試驗錶明,該方法能夠最大限度保留文本的特徵,併且可有效避免嚮量空間模型中的維數災難問題,能應用于大規模文本分類.
지출기우TfIdf적상용문본특정제취방법재문본분류문제중적결함,진이제출사용특정사적분포상태、사빈화문본빈삼자상결합적방식제취문본특정적관점,급출료계산특정사권중적신방법,제출료신적문본분류방법. 시험표명,해방법능구최대한도보류문본적특정,병차가유효피면향량공간모형중적유수재난문제,능응용우대규모문본분류.