高技术通讯
高技術通訊
고기술통신
HIGH TECHNOLOGY LETTERS
2014年
6期
609-615
,共7页
蒋志鹏%赵芳芳%关毅%杨锦锋
蔣誌鵬%趙芳芳%關毅%楊錦鋒
장지붕%조방방%관의%양금봉
中文电子病历(CEMR)%词性标注%标注一致性%语料差异%错误分析
中文電子病歷(CEMR)%詞性標註%標註一緻性%語料差異%錯誤分析
중문전자병력(CEMR)%사성표주%표주일치성%어료차이%착오분석
Chinese electronic medical record (CEMR)%part-of-speech tagging%annotation consistency%statistical lexical differences%error analysis
针对中文电子病历(CEMR)标注语料匮乏,目前面向中文电子病历的分词和词性标注研究仍处于空白阶段的实际情况,从中文电子病历语料的构建出发,提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的病历语料标注工作提供了指导.通过实验量化中文电子病历与开放领域语料、英文电子病历语料的词法统计差异,系统地分析了通用标注模型在中文电子病历中的错误分布,为进行适用于中文电子病历分析的自然语言处理(NLP)技术研究奠定了基础.
針對中文電子病歷(CEMR)標註語料匱乏,目前麵嚮中文電子病歷的分詞和詞性標註研究仍處于空白階段的實際情況,從中文電子病歷語料的構建齣髮,提齣瞭從數據預處理到語料標註的整體方案,穫得瞭較高的標註一緻性,為進行更大規模更高質量的病歷語料標註工作提供瞭指導.通過實驗量化中文電子病歷與開放領域語料、英文電子病歷語料的詞法統計差異,繫統地分析瞭通用標註模型在中文電子病歷中的錯誤分佈,為進行適用于中文電子病歷分析的自然語言處理(NLP)技術研究奠定瞭基礎.
침대중문전자병력(CEMR)표주어료궤핍,목전면향중문전자병력적분사화사성표주연구잉처우공백계단적실제정황,종중문전자병력어료적구건출발,제출료종수거예처리도어료표주적정체방안,획득료교고적표주일치성,위진행경대규모경고질량적병력어료표주공작제공료지도.통과실험양화중문전자병력여개방영역어료、영문전자병력어료적사법통계차이,계통지분석료통용표주모형재중문전자병력중적착오분포,위진행괄용우중문전자병력분석적자연어언처리(NLP)기술연구전정료기출.