中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2010年
3期
112-116
,共5页
张桂平%刘东生%尹宝生%徐立军%苗雪雷
張桂平%劉東生%尹寶生%徐立軍%苗雪雷
장계평%류동생%윤보생%서립군%묘설뢰
计算机应用%中文信息处理%中文分词%专利文献%上下文信息
計算機應用%中文信息處理%中文分詞%專利文獻%上下文信息
계산궤응용%중문신식처리%중문분사%전리문헌%상하문신식
computer applications Chinese information processing) Chinese word segmentation%patent document%context information
针对专利文献的特点,该文提出了一种基于统计和规则相结合的多策略分词方法.该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理.该方法充分利用了从大规模语科中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题.实验结果表明,该文方法在封闭和开放测试下分别取得了较好的结果,对未登录词的识别也有很好的效果.
針對專利文獻的特點,該文提齣瞭一種基于統計和規則相結閤的多策略分詞方法.該方法利用文獻中潛在的切分標記,結閤切分文本的上下文信息進行最大概率分詞,併利用術語前後綴規律進行後處理.該方法充分利用瞭從大規模語科中穫取的全跼信息和切分文本的上下文信息,有效地解決瞭專利分詞中未登錄詞難以識彆問題.實驗結果錶明,該文方法在封閉和開放測試下分彆取得瞭較好的結果,對未登錄詞的識彆也有很好的效果.
침대전리문헌적특점,해문제출료일충기우통계화규칙상결합적다책략분사방법.해방법이용문헌중잠재적절분표기,결합절분문본적상하문신식진행최대개솔분사,병이용술어전후철규률진행후처리.해방법충분이용료종대규모어과중획취적전국신식화절분문본적상하문신식,유효지해결료전리분사중미등록사난이식별문제.실험결과표명,해문방법재봉폐화개방측시하분별취득료교호적결과,대미등록사적식별야유흔호적효과.
According to the characteristics of the patent documents, this paper presents a multi-strategy approach for word segmentation based on statistics and rules. Our method takes advantage of the latent segmentation-marks in the document and employs the context information of the text in the a maximum probabilistic model of segmentation.Meanwhile, the term affix rules are applied in the post-processing. Making full use of the global information from a large scale corpus and the specific context information, this method effectively solves the problem of the out-of-vo-cabulary words difficult to identify in the patent segmentation. The experimental results indicate that this method achieves good results in the close and opening test, with improves on unknown words recognition as well.