吉林大学学报(理学版)
吉林大學學報(理學版)
길림대학학보(이학판)
JOURNAL OF JILIN UNIVERSITY(SCIENCE EDITION)
2009年
4期
790-794
,共5页
徐沛娟%李雄飞%惠玥%张桂林
徐沛娟%李雄飛%惠玥%張桂林
서패연%리웅비%혜모%장계림
文本分类%上下文双向扫描%向量空间模型%权重%特征选择
文本分類%上下文雙嚮掃描%嚮量空間模型%權重%特徵選擇
문본분류%상하문쌍향소묘%향량공간모형%권중%특정선택
通过对分词歧义处理情况的分析, 提出一种基于上下文的双向扫描分词算法, 对分词词典进行改进, 将词组短语的固定搭配引入词典中. 讨论了特征项的选择及权重的设定, 并引进χ2统计量参与项的权值计算, 解决了目前通用TF-IDF加权法的不足, 同时提出了项打分分类算法, 提高了特征项对于文本分类的有效性. 实验结果表明, 改进后的权重计算方法性能更优越.
通過對分詞歧義處理情況的分析, 提齣一種基于上下文的雙嚮掃描分詞算法, 對分詞詞典進行改進, 將詞組短語的固定搭配引入詞典中. 討論瞭特徵項的選擇及權重的設定, 併引進χ2統計量參與項的權值計算, 解決瞭目前通用TF-IDF加權法的不足, 同時提齣瞭項打分分類算法, 提高瞭特徵項對于文本分類的有效性. 實驗結果錶明, 改進後的權重計算方法性能更優越.
통과대분사기의처리정황적분석, 제출일충기우상하문적쌍향소묘분사산법, 대분사사전진행개진, 장사조단어적고정탑배인입사전중. 토론료특정항적선택급권중적설정, 병인진χ2통계량삼여항적권치계산, 해결료목전통용TF-IDF가권법적불족, 동시제출료항타분분류산법, 제고료특정항대우문본분류적유효성. 실험결과표명, 개진후적권중계산방법성능경우월.