计算机应用与软件
計算機應用與軟件
계산궤응용여연건
COMPUTER APPLICATIONS AND SOFTWARE
2014年
8期
330-333
,共4页
中文文本分类%特征选择%特征权重%分类算法
中文文本分類%特徵選擇%特徵權重%分類算法
중문문본분류%특정선택%특정권중%분류산법
Chinese text categorisation%Feature selection%Feature weighting%Classification algorithm
为了提高中文文本分类的效率与精度,设计一种新型的分类器.该分类器采用基于语料库的正向扫描统计分词.在词频统计阶段,采取训练阶段的按类别统计和测试阶段的按文章不同区域统计的方法;为了更好地选择特征词,提出了频度、集中度、相关度三个强信息特征标准;在特征权重计算上,提出了将词频和综合特征选择函数相结合的权重计算方法;最后,结合朴素贝叶斯原理进行分类.实验证明该分类器简单有效.
為瞭提高中文文本分類的效率與精度,設計一種新型的分類器.該分類器採用基于語料庫的正嚮掃描統計分詞.在詞頻統計階段,採取訓練階段的按類彆統計和測試階段的按文章不同區域統計的方法;為瞭更好地選擇特徵詞,提齣瞭頻度、集中度、相關度三箇彊信息特徵標準;在特徵權重計算上,提齣瞭將詞頻和綜閤特徵選擇函數相結閤的權重計算方法;最後,結閤樸素貝葉斯原理進行分類.實驗證明該分類器簡單有效.
위료제고중문문본분류적효솔여정도,설계일충신형적분류기.해분류기채용기우어료고적정향소묘통계분사.재사빈통계계단,채취훈련계단적안유별통계화측시계단적안문장불동구역통계적방법;위료경호지선택특정사,제출료빈도、집중도、상관도삼개강신식특정표준;재특정권중계산상,제출료장사빈화종합특정선택함수상결합적권중계산방법;최후,결합박소패협사원리진행분류.실험증명해분류기간단유효.