中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2011年
3期
30-37
,共8页
自然语言处理%术语定义%定义抽取%文本分类%重采样
自然語言處理%術語定義%定義抽取%文本分類%重採樣
자연어언처리%술어정의%정의추취%문본분류%중채양
为了从专业领域语料中发现并获取所有的专业术语定义,该文提出了使用分类方法进行专业术语定义抽取的方法.该文采用一种基于实例距离分布信息的过采样方法,将其与随机欠采样方法结合用以建立平衡训练语料,并使用BRF(Balanced Random Forest)方法来获得C4.5决策树的聚合分类结果.该方法获得了最好65%的F1-measure成绩和78%的F2-measure成绩,超过了仅使用BRF方法取得的成绩.
為瞭從專業領域語料中髮現併穫取所有的專業術語定義,該文提齣瞭使用分類方法進行專業術語定義抽取的方法.該文採用一種基于實例距離分佈信息的過採樣方法,將其與隨機欠採樣方法結閤用以建立平衡訓練語料,併使用BRF(Balanced Random Forest)方法來穫得C4.5決策樹的聚閤分類結果.該方法穫得瞭最好65%的F1-measure成績和78%的F2-measure成績,超過瞭僅使用BRF方法取得的成績.
위료종전업영역어료중발현병획취소유적전업술어정의,해문제출료사용분류방법진행전업술어정의추취적방법.해문채용일충기우실례거리분포신식적과채양방법,장기여수궤흠채양방법결합용이건립평형훈련어료,병사용BRF(Balanced Random Forest)방법래획득C4.5결책수적취합분류결과.해방법획득료최호65%적F1-measure성적화78%적F2-measure성적,초과료부사용BRF방법취득적성적.