计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2014年
9期
312-316
,共5页
刘凯%周雪忠%于剑%张润顺
劉凱%週雪忠%于劍%張潤順
류개%주설충%우검%장윤순
中医临床病历%命名实体抽取%语料库标注系统%条件随机场%特征模板
中醫臨床病歷%命名實體抽取%語料庫標註繫統%條件隨機場%特徵模闆
중의림상병력%명명실체추취%어료고표주계통%조건수궤장%특정모판
Traditional Chinese Medicine( TCM) medical records%named entity extraction%corpus annotation system%Conditional Random Field( CRF)%feature template
中医临床病历是中医重要的科研数据资源,但目前临床病历仍以文本为主要表达形式,对病历数据深入分析的前提是进行结构化信息抽取,而命名实体抽取是其基础性步骤。针对中医临床病历的命名实体,如症状、疾病和诱因等的抽取问题,通过手工标注的413份病历数据(以中文字为特征)与4类特征模版,将条件随机场( CRF)、隐马尔科夫模型( HMM)和最大熵马尔科夫模型( MEMM)用于中医病历命名实体抽取的实验,并进行比较分析。结果表明,结合合适的特征模版,CRF命名实体抽取方法取得了较好的性能,F1值的症状达到0.80,疾病名称达到0.74,诱因0.74。与HMM和MEMM相比,CRF有最高的准确率和召回率,是一种较为适用的中医临床病历命名实体抽取方法。
中醫臨床病歷是中醫重要的科研數據資源,但目前臨床病歷仍以文本為主要錶達形式,對病歷數據深入分析的前提是進行結構化信息抽取,而命名實體抽取是其基礎性步驟。針對中醫臨床病歷的命名實體,如癥狀、疾病和誘因等的抽取問題,通過手工標註的413份病歷數據(以中文字為特徵)與4類特徵模版,將條件隨機場( CRF)、隱馬爾科伕模型( HMM)和最大熵馬爾科伕模型( MEMM)用于中醫病歷命名實體抽取的實驗,併進行比較分析。結果錶明,結閤閤適的特徵模版,CRF命名實體抽取方法取得瞭較好的性能,F1值的癥狀達到0.80,疾病名稱達到0.74,誘因0.74。與HMM和MEMM相比,CRF有最高的準確率和召迴率,是一種較為適用的中醫臨床病歷命名實體抽取方法。
중의림상병력시중의중요적과연수거자원,단목전림상병력잉이문본위주요표체형식,대병력수거심입분석적전제시진행결구화신식추취,이명명실체추취시기기출성보취。침대중의림상병력적명명실체,여증상、질병화유인등적추취문제,통과수공표주적413빈병력수거(이중문자위특정)여4류특정모판,장조건수궤장( CRF)、은마이과부모형( HMM)화최대적마이과부모형( MEMM)용우중의병력명명실체추취적실험,병진행비교분석。결과표명,결합합괄적특정모판,CRF명명실체추취방법취득료교호적성능,F1치적증상체도0.80,질병명칭체도0.74,유인0.74。여HMM화MEMM상비,CRF유최고적준학솔화소회솔,시일충교위괄용적중의림상병력명명실체추취방법。
Traditional Chinese Medicine( TCM) medical records are the important data resources of the TCM medical research. The main form of them is still text now,and it is necessary to extract the structured information from the medical records,while named entity extraction is the basic step. It makes 413 copies of manually labeled medical records in Chinese text and four types of feature templates to study about the named entity extraction practice such as symptoms, diseases and incentives. It compares the results of TCM medical records named entity extraction by Conditional Random Field( CRF ) , Hidden Markov Model ( HMM ) and Maximum Entropy Markov Model ( MEMM ) . Combined with appropriate feature templates,CRF has well performance of F1:symptoms 0. 80,the name of the disease 0. 74,incentives 0. 74. Compared with HMM and MEMM,CRF has the highest precision and recall rate. This preliminary shows that CRF is an applicable method of the Chinese medical records named entity extraction.