系统工程
繫統工程
계통공정
SYSTEMS ENGINEERING
2008年
5期
120-122
,共3页
互信息%词相似度%聚类算法%统计语言模型
互信息%詞相似度%聚類算法%統計語言模型
호신식%사상사도%취류산법%통계어언모형
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计聚类方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文利用互信息定义了一种词相似度,在词相似度的基础上给出了词集合相似度的定义.基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.
基于類的統計語言模型是解決統計模型數據稀疏問題的重要方法.傳統的統計聚類方法基于貪婪原則,常以語料的似然函數或睏惑度(perplexity)作為評價標準.這種傳統的聚類方法的主要缺點是聚類速度慢,初值對結果影響大,易陷入跼部最優.本文利用互信息定義瞭一種詞相似度,在詞相似度的基礎上給齣瞭詞集閤相似度的定義.基于相似度,提齣瞭一種自下而上的分層聚類算法,這種方法不但能改善聚類效果,而且可根據不同的模型選擇不同的相似度定義,因而提高聚類的使用效果.實驗證明,該算法在計算複雜度和聚類效果上比傳統的基于貪婪原則的統計聚類算法都有明顯的改進.
기우류적통계어언모형시해결통계모형수거희소문제적중요방법.전통적통계취류방법기우탐람원칙,상이어료적사연함수혹곤혹도(perplexity)작위평개표준.저충전통적취류방법적주요결점시취류속도만,초치대결과영향대,역함입국부최우.본문이용호신식정의료일충사상사도,재사상사도적기출상급출료사집합상사도적정의.기우상사도,제출료일충자하이상적분층취류산법,저충방법불단능개선취류효과,이차가근거불동적모형선택불동적상사도정의,인이제고취류적사용효과.실험증명,해산법재계산복잡도화취류효과상비전통적기우탐람원칙적통계취류산법도유명현적개진.