中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2010年
1期
94-98
,共5页
李超%王会珍%朱慕华%张俐%朱靖波
李超%王會珍%硃慕華%張俐%硃靖波
리초%왕회진%주모화%장리%주정파
计算机应用%中文信息处理%多词串抽取%多类别C-value%领域信息
計算機應用%中文信息處理%多詞串抽取%多類彆C-value%領域信息
계산궤응용%중문신식처리%다사천추취%다유별C-value%영역신식
computer application%Chinese information processing%multi-word terms extraction%Multi-Class C-value%domain information
该本的多词串抽取是自然语言处理领域一项重要的研究内容.该文提出了一种多类别C-value(Multi-Class C-value)方法,利用多词串在不同领域的分布信息改善领域相关的多词串抽取的性能.在汽车、科技和旅行三个领域的数据上进行实验,评价多词串的准确率,在top-100级别上,较传统的C-value方法在三个领域中分别提高了12、12和13个百分点.实验结果验证了方法的有效性.
該本的多詞串抽取是自然語言處理領域一項重要的研究內容.該文提齣瞭一種多類彆C-value(Multi-Class C-value)方法,利用多詞串在不同領域的分佈信息改善領域相關的多詞串抽取的性能.在汽車、科技和旅行三箇領域的數據上進行實驗,評價多詞串的準確率,在top-100級彆上,較傳統的C-value方法在三箇領域中分彆提高瞭12、12和13箇百分點.實驗結果驗證瞭方法的有效性.
해본적다사천추취시자연어언처리영역일항중요적연구내용.해문제출료일충다유별C-value(Multi-Class C-value)방법,이용다사천재불동영역적분포신식개선영역상관적다사천추취적성능.재기차、과기화여행삼개영역적수거상진행실험,평개다사천적준학솔,재top-100급별상,교전통적C-value방법재삼개영역중분별제고료12、12화13개백분점.실험결과험증료방법적유효성.
Automatic multi-word terms extraction attracts more and more attention in the research of natural language processing. This paper proposes a Multi-Class C-value method, which uses the distribution of multi-word terms in different domains, to improve the performance of multi-word terms extraction. In the experiment with the data of automobile, technology and trip, the precisions of top 100 multi-word terms are 12%, 12% and 13% higher than the clssical C-value method in three domains respectively.