计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2006年
5期
927-932
,共6页
崔世起%刘群%孟遥%于浩%西野文人
崔世起%劉群%孟遙%于浩%西野文人
최세기%류군%맹요%우호%서야문인
新词%垃圾串%垃圾头%垃圾尾%独立词概率
新詞%垃圾串%垃圾頭%垃圾尾%獨立詞概率
신사%랄급천%랄급두%랄급미%독립사개솔
自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域.
自然語言的髮展提齣瞭快速跟蹤新詞的要求.提齣瞭一種基于大規模語料庫的新詞檢測方法,首先在大規模的Internet生語料上進行中文詞法切分,然後在分詞的基礎上進行頻度統計得到大量的候選新詞.針對二元新詞、三元新詞、四元新詞等的常見模式,用自學習的方法產生3箇垃圾詞典和一箇詞綴詞典對候選新詞進行垃圾過濾,最後使用詞性過濾規則和獨立詞概率技術進一步過濾.據此實現瞭一箇基于Internet的進行在線新詞檢測的繫統,併取得瞭令人滿意的性能.繫統已經可以應用到新詞檢測、術語庫建立、熱點命名實體統計和詞典編纂等領域.
자연어언적발전제출료쾌속근종신사적요구.제출료일충기우대규모어료고적신사검측방법,수선재대규모적Internet생어료상진행중문사법절분,연후재분사적기출상진행빈도통계득도대량적후선신사.침대이원신사、삼원신사、사원신사등적상견모식,용자학습적방법산생3개랄급사전화일개사철사전대후선신사진행랄급과려,최후사용사성과려규칙화독립사개솔기술진일보과려.거차실현료일개기우Internet적진행재선신사검측적계통,병취득료령인만의적성능.계통이경가이응용도신사검측、술어고건립、열점명명실체통계화사전편찬등영역.