太原理工大学学报
太原理工大學學報
태원리공대학학보
JOURNAL OF TAIYUAN UNIVERSITY OF TECHNOLOGY
2011年
2期
133-137
,共5页
多字词表达%互信息%熵%语言学规则
多字詞錶達%互信息%熵%語言學規則
다자사표체%호신식%적%어언학규칙
基于特定领域的语料库,利用统计和语言学规则相结合的方法提取多字词表达(Multiword expressions).首先利用领域高频词作为种子词提取候选串,进一步利用各种统计量、多字词表达边界过滤规则对候选串进行噪声剔除,得到多字词表达.实验结果表明,该方法对于处理大规模真实文本效率很高,可以有效提高多字词表达的获取,可以更有针对性地在特定领域提取多字词表达.
基于特定領域的語料庫,利用統計和語言學規則相結閤的方法提取多字詞錶達(Multiword expressions).首先利用領域高頻詞作為種子詞提取候選串,進一步利用各種統計量、多字詞錶達邊界過濾規則對候選串進行譟聲剔除,得到多字詞錶達.實驗結果錶明,該方法對于處理大規模真實文本效率很高,可以有效提高多字詞錶達的穫取,可以更有針對性地在特定領域提取多字詞錶達.
기우특정영역적어료고,이용통계화어언학규칙상결합적방법제취다자사표체(Multiword expressions).수선이용영역고빈사작위충자사제취후선천,진일보이용각충통계량、다자사표체변계과려규칙대후선천진행조성척제,득도다자사표체.실험결과표명,해방법대우처리대규모진실문본효솔흔고,가이유효제고다자사표체적획취,가이경유침대성지재특정영역제취다자사표체.