计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2010年
9期
2348-2350,2361
,共4页
文本分类%隐马尔可夫模型%信息增益%X2检验%词频-反文档频率
文本分類%隱馬爾可伕模型%信息增益%X2檢驗%詞頻-反文檔頻率
문본분류%은마이가부모형%신식증익%X2검험%사빈-반문당빈솔
自动文本分类领域近年来已经产生了若干成熟的分类算法,但这些算法主要基于概率统计模型,没有与文本自身的语法和语义建立起联系.提出了将隐马尔可夫序列分析模型(HMM)用于自动文本分类的算法,首先构造表示文档类别的特征词集合,并以文档类别的特征词序列作为不同HMM分类器的观察序列,而HMM的状态转换序列则隐含地表示了不同类别文档内容的形成演化过程.分类时,具有最大生成概率的HMM分类器类标即为测试文档的分类结果.该算法构造的分类器模型一定程度上体现了不同类别文档的语法和语义特征,并可以实现多类别的自动文本分类,分类效率较高.
自動文本分類領域近年來已經產生瞭若榦成熟的分類算法,但這些算法主要基于概率統計模型,沒有與文本自身的語法和語義建立起聯繫.提齣瞭將隱馬爾可伕序列分析模型(HMM)用于自動文本分類的算法,首先構造錶示文檔類彆的特徵詞集閤,併以文檔類彆的特徵詞序列作為不同HMM分類器的觀察序列,而HMM的狀態轉換序列則隱含地錶示瞭不同類彆文檔內容的形成縯化過程.分類時,具有最大生成概率的HMM分類器類標即為測試文檔的分類結果.該算法構造的分類器模型一定程度上體現瞭不同類彆文檔的語法和語義特徵,併可以實現多類彆的自動文本分類,分類效率較高.
자동문본분류영역근년래이경산생료약간성숙적분류산법,단저사산법주요기우개솔통계모형,몰유여문본자신적어법화어의건립기련계.제출료장은마이가부서렬분석모형(HMM)용우자동문본분류적산법,수선구조표시문당유별적특정사집합,병이문당유별적특정사서렬작위불동HMM분류기적관찰서렬,이HMM적상태전환서렬칙은함지표시료불동유별문당내용적형성연화과정.분류시,구유최대생성개솔적HMM분류기류표즉위측시문당적분류결과.해산법구조적분류기모형일정정도상체현료불동유별문당적어법화어의특정,병가이실현다유별적자동문본분류,분류효솔교고.