计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2015年
9期
129-134,157
,共7页
石文娟%龙舜%云飞
石文娟%龍舜%雲飛
석문연%룡순%운비
背景知识%迭代%互信息度%朴素贝叶斯%文本分类%歧义消除
揹景知識%迭代%互信息度%樸素貝葉斯%文本分類%歧義消除
배경지식%질대%호신식도%박소패협사%문본분류%기의소제
background knowledge%iteration%mutual information%Naive Bayesian%text categorization%disambiguation
随着网络文本数据呈指数级增长,信息的人工分类和管理逐渐被计算机自动分类所替代,相关领域经过多年的研究和发展已经开发出一些相对成熟的算法。研究分析发现:在文本预处理阶段歧义语段的划分始终是影响分类准确率的一个重要因素,至今仍未完全解决。结合互信息度理论,提出一种基于背景学习的迭代式框架,在此基础上通过对分词数据预处理来改进传统的基于朴素贝叶斯模型的文本分类算法,并使用新浪网不同类别数据对提出的迭代式框架进行实验评估,实验结果表明提出的基于背景学习的迭代式文本分类框架可行有效。
隨著網絡文本數據呈指數級增長,信息的人工分類和管理逐漸被計算機自動分類所替代,相關領域經過多年的研究和髮展已經開髮齣一些相對成熟的算法。研究分析髮現:在文本預處理階段歧義語段的劃分始終是影響分類準確率的一箇重要因素,至今仍未完全解決。結閤互信息度理論,提齣一種基于揹景學習的迭代式框架,在此基礎上通過對分詞數據預處理來改進傳統的基于樸素貝葉斯模型的文本分類算法,併使用新浪網不同類彆數據對提齣的迭代式框架進行實驗評估,實驗結果錶明提齣的基于揹景學習的迭代式文本分類框架可行有效。
수착망락문본수거정지수급증장,신식적인공분류화관리축점피계산궤자동분류소체대,상관영역경과다년적연구화발전이경개발출일사상대성숙적산법。연구분석발현:재문본예처리계단기의어단적화분시종시영향분류준학솔적일개중요인소,지금잉미완전해결。결합호신식도이론,제출일충기우배경학습적질대식광가,재차기출상통과대분사수거예처리래개진전통적기우박소패협사모형적문본분류산법,병사용신랑망불동유별수거대제출적질대식광가진행실험평고,실험결과표명제출적기우배경학습적질대식문본분류광가가행유효。
The exponential growth of text-based information on Internet has boosted a growing demand for automatic text classification techniques. Various algorithms have been proposed after decades of research. However, distinction of ambig-uous phrases at text preprocessing phase is considered of vital importance for accuracy in automatic text classification, which remains to be solved comprehensively and convincingly. This paper presents a background-based iterative frame-work integrated with the mutual information theory. When applied to text preprocessing, it improves the traditional Naive Bayesian model based text classification algorithms. Experimental results based on data from various Sina categories show that this proposed framework is both feasible and effective.