计算机应用
計算機應用
계산궤응용
Journal of Computer Applications
2015年
8期
2210-2214,2248
,共6页
邱云飞%刘世兴%魏海超%邵良杉
邱雲飛%劉世興%魏海超%邵良杉
구운비%류세흥%위해초%소량삼
n-grams语言模型%词性%冗余度%稀疏数据%特征选择
n-grams語言模型%詞性%冗餘度%稀疏數據%特徵選擇
n-grams어언모형%사성%용여도%희소수거%특정선택
n-grams language model%parts of speech%redundancy%sparse data%feature selection
n-grams语言模型旨在利用多个词的组合形式生成文本特征,以此训练分类器对文本进行分类.然而n-grams自身存在冗余词,并且在与训练集匹配量化的过程中会产生大量稀疏数据,严重影响分类准确率,限制了其使用范围.对此,基于n-grams语言模型,提出一种改进的n-grams语言模型——W-POS.将分词后文本中出现概率较小的词和冗余词用词性代替,得到由词和词性的不规则排列组成的W-POS语言模型,并提出该语言模型的选择规则、选择算法以及与测试集的匹配算法.在复旦大学中文语料库和英文语料库20Newsgroups中的实验结果表明,W-POS语言模型既继承了n-grams语言模型减少特征数量、携带部分语义和提高精度的优点,又克服了n-grams语言模型产生大量稀疏数据、含有冗余词的缺陷,并验证了选择和匹配算法的有效性.
n-grams語言模型旨在利用多箇詞的組閤形式生成文本特徵,以此訓練分類器對文本進行分類.然而n-grams自身存在冗餘詞,併且在與訓練集匹配量化的過程中會產生大量稀疏數據,嚴重影響分類準確率,限製瞭其使用範圍.對此,基于n-grams語言模型,提齣一種改進的n-grams語言模型——W-POS.將分詞後文本中齣現概率較小的詞和冗餘詞用詞性代替,得到由詞和詞性的不規則排列組成的W-POS語言模型,併提齣該語言模型的選擇規則、選擇算法以及與測試集的匹配算法.在複旦大學中文語料庫和英文語料庫20Newsgroups中的實驗結果錶明,W-POS語言模型既繼承瞭n-grams語言模型減少特徵數量、攜帶部分語義和提高精度的優點,又剋服瞭n-grams語言模型產生大量稀疏數據、含有冗餘詞的缺陷,併驗證瞭選擇和匹配算法的有效性.
n-grams어언모형지재이용다개사적조합형식생성문본특정,이차훈련분류기대문본진행분류.연이n-grams자신존재용여사,병차재여훈련집필배양화적과정중회산생대량희소수거,엄중영향분류준학솔,한제료기사용범위.대차,기우n-grams어언모형,제출일충개진적n-grams어언모형——W-POS.장분사후문본중출현개솔교소적사화용여사용사성대체,득도유사화사성적불규칙배렬조성적W-POS어언모형,병제출해어언모형적선택규칙、선택산법이급여측시집적필배산법.재복단대학중문어료고화영문어료고20Newsgroups중적실험결과표명,W-POS어언모형기계승료n-grams어언모형감소특정수량、휴대부분어의화제고정도적우점,우극복료n-grams어언모형산생대량희소수거、함유용여사적결함,병험증료선택화필배산법적유효성.