软件导刊
軟件導刊
연건도간
SOFT WARE GUIDE
2014年
11期
28-30
,共3页
命名实体识别%CRF%规则%工程文本
命名實體識彆%CRF%規則%工程文本
명명실체식별%CRF%규칙%공정문본
NER%CRF%Rules%Civil Engineering Text
在分析工程文本中命名实体实际特征的基础上,提出一种基于CRF与规则相结合的工程领域命名实体识别方法。在完善用户词典并对文本进行分词后,以短语级的粒度为原则从中确定特征,将文本交由CRF算法进行处理;分析CRF的处理结果,根据语言学规律及工程文本特点编写规则,对CRF处理结果进行优化。实验表明,该方法的全局F1值能够达到93.45。
在分析工程文本中命名實體實際特徵的基礎上,提齣一種基于CRF與規則相結閤的工程領域命名實體識彆方法。在完善用戶詞典併對文本進行分詞後,以短語級的粒度為原則從中確定特徵,將文本交由CRF算法進行處理;分析CRF的處理結果,根據語言學規律及工程文本特點編寫規則,對CRF處理結果進行優化。實驗錶明,該方法的全跼F1值能夠達到93.45。
재분석공정문본중명명실체실제특정적기출상,제출일충기우CRF여규칙상결합적공정영역명명실체식별방법。재완선용호사전병대문본진행분사후,이단어급적립도위원칙종중학정특정,장문본교유CRF산법진행처리;분석CRF적처리결과,근거어언학규률급공정문본특점편사규칙,대CRF처리결과진행우화。실험표명,해방법적전국F1치능구체도93.45。
This article proposed a method of Named-Entity recognizing base on CRF and rules for civil engineering ,on the features of civil engineering text .First ,completed the word segmentation by using special dictionary ,then chose the fea-ture types of the text on the level of phrase ,thirdly processed by the CRF ,and got the preliminary result .For improving the result ,rules would be written ,which were bases on linguistics and the characteristic of the text .The result of experi-ment indicated that the F1 value of the method could reach to 93 .45 .