中国生物医学工程学报
中國生物醫學工程學報
중국생물의학공정학보
CHINESE JOURNAL OF BIOMEDICAL ENGINEERING
2011年
2期
256-262
,共7页
叶枫%陈莺莺%周根贵%李昊旻%李莹
葉楓%陳鶯鶯%週根貴%李昊旻%李瑩
협풍%진앵앵%주근귀%리호민%리형
电子病历%命名实体识别%机器学习%条件随机场
電子病歷%命名實體識彆%機器學習%條件隨機場
전자병력%명명실체식별%궤기학습%조건수궤장
电子病历中命名实体的识别对于构建和挖掘大型临床数据库以服务于临床决策具有重要意义,而我国目前对此的研究相对较少.在比较现有的实体识别方法和模型后,采用条件随机场模型(CRF)机器学习的方法,对疾病、临床症状、手术操作3类中文病历中常见的命名实体进行智能识别.首先,通过分析电子病历的数据特征,选择以语言符号、词性、构词特征、词边界、上下文为特征集.然后,基于随机抽取的来自临床医院多个科室的电子病历数据,构建小规模语料库并进行标注.最后,利用条件随机场算法执行工具CRF++进行3次对照实验.通过逐步分析特征集中的多种特征对CRF自动识别的影响,提出在中文病历环境下CRF特征选择和模板设计的一些基本规则.在对照实验中,本方法取得了良好效果,3类实体的最佳F值分别达到了92.67%,93.76%和95.06%.
電子病歷中命名實體的識彆對于構建和挖掘大型臨床數據庫以服務于臨床決策具有重要意義,而我國目前對此的研究相對較少.在比較現有的實體識彆方法和模型後,採用條件隨機場模型(CRF)機器學習的方法,對疾病、臨床癥狀、手術操作3類中文病歷中常見的命名實體進行智能識彆.首先,通過分析電子病歷的數據特徵,選擇以語言符號、詞性、構詞特徵、詞邊界、上下文為特徵集.然後,基于隨機抽取的來自臨床醫院多箇科室的電子病歷數據,構建小規模語料庫併進行標註.最後,利用條件隨機場算法執行工具CRF++進行3次對照實驗.通過逐步分析特徵集中的多種特徵對CRF自動識彆的影響,提齣在中文病歷環境下CRF特徵選擇和模闆設計的一些基本規則.在對照實驗中,本方法取得瞭良好效果,3類實體的最佳F值分彆達到瞭92.67%,93.76%和95.06%.
전자병력중명명실체적식별대우구건화알굴대형림상수거고이복무우림상결책구유중요의의,이아국목전대차적연구상대교소.재비교현유적실체식별방법화모형후,채용조건수궤장모형(CRF)궤기학습적방법,대질병、림상증상、수술조작3류중문병력중상견적명명실체진행지능식별.수선,통과분석전자병력적수거특정,선택이어언부호、사성、구사특정、사변계、상하문위특정집.연후,기우수궤추취적래자림상의원다개과실적전자병력수거,구건소규모어료고병진행표주.최후,이용조건수궤장산법집행공구CRF++진행3차대조실험.통과축보분석특정집중적다충특정대CRF자동식별적영향,제출재중문병력배경하CRF특정선택화모판설계적일사기본규칙.재대조실험중,본방법취득료량호효과,3류실체적최가F치분별체도료92.67%,93.76%화95.06%.