电脑知识与技术(学术交流)
電腦知識與技術(學術交流)
전뇌지식여기술(학술교류)
COMPUTER KNOWLEDGE AND TECHNOLOGY
2005年
4期
71-74
,共4页
中文文本分类统计分词特征提取
中文文本分類統計分詞特徵提取
중문문본분류통계분사특정제취
本文阐述了一个中文文本分类系统的设计和实现,对文本分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细介绍,将基于统计的二元分词方法应用于中文文本分类,并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,实现了在事先没有词表的情况下,通过统计构造单字及二字词词表,从而对文本进行分词,然后再进行文本的分类.
本文闡述瞭一箇中文文本分類繫統的設計和實現,對文本分類繫統的繫統結構、特徵提取、訓練算法、分類算法等進行瞭詳細介紹,將基于統計的二元分詞方法應用于中文文本分類,併提齣瞭一種基于漢語中單字詞及二字詞統計特性的中文文本分類方法,實現瞭在事先沒有詞錶的情況下,通過統計構造單字及二字詞詞錶,從而對文本進行分詞,然後再進行文本的分類.
본문천술료일개중문문본분류계통적설계화실현,대문본분류계통적계통결구、특정제취、훈련산법、분류산법등진행료상세개소,장기우통계적이원분사방법응용우중문문본분류,병제출료일충기우한어중단자사급이자사통계특성적중문문본분류방법,실현료재사선몰유사표적정황하,통과통계구조단자급이자사사표,종이대문본진행분사,연후재진행문본적분류.