计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2005年
1期
11-13,16
,共4页
文本分类%N元语言模型%参数平滑
文本分類%N元語言模型%參數平滑
문본분류%N원어언모형%삼수평활
分类是近年来自然语言处理领域的一个研究热点.在分析了传统的分类模型后,文中提出了用N元语言模型作为中文文本分类模型.该模型不以传统的"词袋"(bag of words)方法表示文档,而将文档视为词的随机观察序列.根据该方法,设计并实现一个基于词的2元语言模型分类器.通过N元语言模型与传统分类模型(向量空间模型和Naive Bayes模型)的实验对比,结果表明:N元模型分类器具有更好的分类性能.
分類是近年來自然語言處理領域的一箇研究熱點.在分析瞭傳統的分類模型後,文中提齣瞭用N元語言模型作為中文文本分類模型.該模型不以傳統的"詞袋"(bag of words)方法錶示文檔,而將文檔視為詞的隨機觀察序列.根據該方法,設計併實現一箇基于詞的2元語言模型分類器.通過N元語言模型與傳統分類模型(嚮量空間模型和Naive Bayes模型)的實驗對比,結果錶明:N元模型分類器具有更好的分類性能.
분류시근년래자연어언처리영역적일개연구열점.재분석료전통적분류모형후,문중제출료용N원어언모형작위중문문본분류모형.해모형불이전통적"사대"(bag of words)방법표시문당,이장문당시위사적수궤관찰서렬.근거해방법,설계병실현일개기우사적2원어언모형분류기.통과N원어언모형여전통분류모형(향량공간모형화Naive Bayes모형)적실험대비,결과표명:N원모형분류기구유경호적분류성능.