计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2010年
24期
129-131
,共3页
周浪%冯冲%黄河燕%王平尧
週浪%馮遲%黃河燕%王平堯
주랑%풍충%황하연%왕평요
子串归并%独立性统计%分词碎片
子串歸併%獨立性統計%分詞碎片
자천귀병%독립성통계%분사쇄편
现行的子串归并算法都是采用一对一的方式针对同频子串提出的.但是在使用词法分析工具对文本进行切分时,不可避免地会产生很多的分词碎片,这直接导致了很多无意义子串的产生.通过分析这些无意义子串和众多父串之间的这种一对多关系,提出了一种基于独立性统计的子串归并算法.最后将该子串归并算法应用在中文术语抽取系统中,使得系统的准确率从91.3%提升到了93.32%.
現行的子串歸併算法都是採用一對一的方式針對同頻子串提齣的.但是在使用詞法分析工具對文本進行切分時,不可避免地會產生很多的分詞碎片,這直接導緻瞭很多無意義子串的產生.通過分析這些無意義子串和衆多父串之間的這種一對多關繫,提齣瞭一種基于獨立性統計的子串歸併算法.最後將該子串歸併算法應用在中文術語抽取繫統中,使得繫統的準確率從91.3%提升到瞭93.32%.
현행적자천귀병산법도시채용일대일적방식침대동빈자천제출적.단시재사용사법분석공구대문본진행절분시,불가피면지회산생흔다적분사쇄편,저직접도치료흔다무의의자천적산생.통과분석저사무의의자천화음다부천지간적저충일대다관계,제출료일충기우독립성통계적자천귀병산법.최후장해자천귀병산법응용재중문술어추취계통중,사득계통적준학솔종91.3%제승도료93.32%.