计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2015年
8期
1591-1598
,共8页
边界标记集%种子术语%部件库%左右边界熵
邊界標記集%種子術語%部件庫%左右邊界熵
변계표기집%충자술어%부건고%좌우변계적
boundary tag set%seed-term%term component library%boundary entropy
目前,大部分术语边界的确定方法是通过选取合适的统计量,设置合适的阈值计算字符串之间的紧密程度,但该类方法在抽取长术语时不能得到很好的效果.为了解决在术语抽取过程中长术语抽取召回率低的问题,在研究了大量专利文献的基础上,提出了一种基于专利术语边界标记集的术语抽取方法.方法中提出了边界标记集的概念,并结合专利文献中术语边界的特点构建专利术语边界标记集;提出了一种种子术语权重计算方法抽取种子术语;使用人民日报语料作为对比语料抽取专利文献术语部件词库,提高候选术语的术语度;最后采用左右边界熵的方法对识别出的术语进行过滤.实验表明,所提出的方法具有较好的实验结果,正确率81.67%,召回率71.92%,F值0.765,较对比实验有较大提高.
目前,大部分術語邊界的確定方法是通過選取閤適的統計量,設置閤適的閾值計算字符串之間的緊密程度,但該類方法在抽取長術語時不能得到很好的效果.為瞭解決在術語抽取過程中長術語抽取召迴率低的問題,在研究瞭大量專利文獻的基礎上,提齣瞭一種基于專利術語邊界標記集的術語抽取方法.方法中提齣瞭邊界標記集的概唸,併結閤專利文獻中術語邊界的特點構建專利術語邊界標記集;提齣瞭一種種子術語權重計算方法抽取種子術語;使用人民日報語料作為對比語料抽取專利文獻術語部件詞庫,提高候選術語的術語度;最後採用左右邊界熵的方法對識彆齣的術語進行過濾.實驗錶明,所提齣的方法具有較好的實驗結果,正確率81.67%,召迴率71.92%,F值0.765,較對比實驗有較大提高.
목전,대부분술어변계적학정방법시통과선취합괄적통계량,설치합괄적역치계산자부천지간적긴밀정도,단해류방법재추취장술어시불능득도흔호적효과.위료해결재술어추취과정중장술어추취소회솔저적문제,재연구료대량전리문헌적기출상,제출료일충기우전리술어변계표기집적술어추취방법.방법중제출료변계표기집적개념,병결합전리문헌중술어변계적특점구건전리술어변계표기집;제출료일충충자술어권중계산방법추취충자술어;사용인민일보어료작위대비어료추취전리문헌술어부건사고,제고후선술어적술어도;최후채용좌우변계적적방법대식별출적술어진행과려.실험표명,소제출적방법구유교호적실험결과,정학솔81.67%,소회솔71.92%,F치0.765,교대비실험유교대제고.