清华大学学报(自然科学版)
清華大學學報(自然科學版)
청화대학학보(자연과학판)
JOURNAL OF TSINGHUA UNIVERSITY SCIENCE AND TECHNOLOGY
2008年
1期
117-120
,共4页
信息处理%中文时间信息%TIMEX2标注规范%自动标注
信息處理%中文時間信息%TIMEX2標註規範%自動標註
신식처리%중문시간신식%TIMEX2표주규범%자동표주
为了完善中文时间信息标注规范,实现中文时间短语的自动标注,该文研究并修改国际通用的时间短语标注规范TIMEX2的中文标注草案,以此为基础开发一个基于正则表达式的中文TIMEX2自动标注系统(CTAT).该系统采用3层候选确定参考时间,并行使用多个模块识别输入句子中的时间短语,通过排序冲突消解确定最终结果.经测试,该系统识别时间短语和将时间信息值解析为标准格式的F-measure分别达到了90.15%和83.27%, 与其他语言同类系统性能相当.应用该系统标注的语料,为时间信息处理方面的后续研究提供了重要资源.
為瞭完善中文時間信息標註規範,實現中文時間短語的自動標註,該文研究併脩改國際通用的時間短語標註規範TIMEX2的中文標註草案,以此為基礎開髮一箇基于正則錶達式的中文TIMEX2自動標註繫統(CTAT).該繫統採用3層候選確定參攷時間,併行使用多箇模塊識彆輸入句子中的時間短語,通過排序遲突消解確定最終結果.經測試,該繫統識彆時間短語和將時間信息值解析為標準格式的F-measure分彆達到瞭90.15%和83.27%, 與其他語言同類繫統性能相噹.應用該繫統標註的語料,為時間信息處理方麵的後續研究提供瞭重要資源.
위료완선중문시간신식표주규범,실현중문시간단어적자동표주,해문연구병수개국제통용적시간단어표주규범TIMEX2적중문표주초안,이차위기출개발일개기우정칙표체식적중문TIMEX2자동표주계통(CTAT).해계통채용3층후선학정삼고시간,병행사용다개모괴식별수입구자중적시간단어,통과배서충돌소해학정최종결과.경측시,해계통식별시간단어화장시간신식치해석위표준격식적F-measure분별체도료90.15%화83.27%, 여기타어언동류계통성능상당.응용해계통표주적어료,위시간신식처리방면적후속연구제공료중요자원.