计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2013年
1期
128-130
,共3页
文本分类%语义距离%特征选择%特征向量
文本分類%語義距離%特徵選擇%特徵嚮量
문본분류%어의거리%특정선택%특정향량
text classification%semantic distance%features selection%feature vector
文本分类是解决网络信息过载的关键技术之一.传统的文本分类方法大多只考虑文本中词语的统计词频等特征,忽略了文本的语义信息,导致文本分类精度不高.针对这种问题,提出了一种基于语义距离的文本分类方法,该方法首先根据 CHI 方法进行文本特征选择,然后利用语义距离计算代表类别的特征向量集合,最后通过计算文本特征向量和类别特征向量之间的语义距离来确定文本类别.实验结果表明,该方法与其他方法相比,把文本的语义信息考虑在内,在进行文本分类方面具有较高的准确率.
文本分類是解決網絡信息過載的關鍵技術之一.傳統的文本分類方法大多隻攷慮文本中詞語的統計詞頻等特徵,忽略瞭文本的語義信息,導緻文本分類精度不高.針對這種問題,提齣瞭一種基于語義距離的文本分類方法,該方法首先根據 CHI 方法進行文本特徵選擇,然後利用語義距離計算代錶類彆的特徵嚮量集閤,最後通過計算文本特徵嚮量和類彆特徵嚮量之間的語義距離來確定文本類彆.實驗結果錶明,該方法與其他方法相比,把文本的語義信息攷慮在內,在進行文本分類方麵具有較高的準確率.
문본분류시해결망락신식과재적관건기술지일.전통적문본분류방법대다지고필문본중사어적통계사빈등특정,홀략료문본적어의신식,도치문본분류정도불고.침대저충문제,제출료일충기우어의거리적문본분류방법,해방법수선근거 CHI 방법진행문본특정선택,연후이용어의거리계산대표유별적특정향량집합,최후통과계산문본특정향량화유별특정향량지간적어의거리래학정문본유별.실험결과표명,해방법여기타방법상비,파문본적어의신식고필재내,재진행문본분류방면구유교고적준학솔.
Text classification is one of the key technologier solving network information overload. The traditional text classification meth-ods only consider mostly the statistical word frequency in the text,ignoring the text semantic information,leading to text classification ac-curacy is not high. Aiming to this problem,propose a text classification method based on semantic distance,this method first take the text feature selection according to CHI method,and then by using semantic distance calculate feature vector set on behalf of the category,final-ly through the calculation of the distance between text feature vector and category feature vector determine the text category. The experi-mental results show that this method,compared with the existing methods,take the semantic information of the text into consideration,has higher accuracy in the text classification.