计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2001年
15期
17-19,35
,共4页
PAT Tree 信息检索 统计语言模型 关键词提取
PAT Tree 信息檢索 統計語言模型 關鍵詞提取
PAT Tree 신식검색 통계어언모형 관건사제취
未登录关键词的识别是中文信息处理中的一个关键问题.文章利用PAT TREE实现了一种可变长统计语言模型,由于不存在n元统计语言模型的截断效应,从而对待提取的关键词的长度没有限制.在该模型的基础上,通过相关性检测,从540M汉语语料中自动提取出了12万个关键词候选字串.最后,经过分析和筛选,候选字串的准确度由82.3%上升到96.1%.实验表明,基于PAT TREE的统计语言模型是实现未登录词提取的有力工具.
未登錄關鍵詞的識彆是中文信息處理中的一箇關鍵問題.文章利用PAT TREE實現瞭一種可變長統計語言模型,由于不存在n元統計語言模型的截斷效應,從而對待提取的關鍵詞的長度沒有限製.在該模型的基礎上,通過相關性檢測,從540M漢語語料中自動提取齣瞭12萬箇關鍵詞候選字串.最後,經過分析和篩選,候選字串的準確度由82.3%上升到96.1%.實驗錶明,基于PAT TREE的統計語言模型是實現未登錄詞提取的有力工具.
미등록관건사적식별시중문신식처리중적일개관건문제.문장이용PAT TREE실현료일충가변장통계어언모형,유우불존재n원통계어언모형적절단효응,종이대대제취적관건사적장도몰유한제.재해모형적기출상,통과상관성검측,종540M한어어료중자동제취출료12만개관건사후선자천.최후,경과분석화사선,후선자천적준학도유82.3%상승도96.1%.실험표명,기우PAT TREE적통계어언모형시실현미등록사제취적유력공구.