情报学报
情報學報
정보학보
2010年
3期
460-467
,共8页
周浪%史树敏%冯冲%黄河燕
週浪%史樹敏%馮遲%黃河燕
주랑%사수민%풍충%황하연
中文术语抽取%语言规则获取%子串归并%搭配检验%词语活跃度%领域相关度
中文術語抽取%語言規則穫取%子串歸併%搭配檢驗%詞語活躍度%領域相關度
중문술어추취%어언규칙획취%자천귀병%탑배검험%사어활약도%영역상관도
中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术.相对于单词型术语,词组型术语的识别过程要更加复杂.由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考虑短语内部词汇的搭配合理性、衡量短语中所负载领域信息量等问题.文中将词组型术语抽取过程中遇到的这三个问题作为切入点,分别使用子串归并、搭配检验和领域相关度计算技术来解决这三个问题,分析词组型术语自身的结构特征以及其在语料中的分布特征,完善词组型术语的抽取任务.实验证实了该方法能够有效提升低频术语和基础术语的排序位置,从而改善了中文词组型术语抽取系统的性能.
中文術語抽取是信息抽取、文本挖掘以及知識穫取等信息處理任務中的關鍵技術.相對于單詞型術語,詞組型術語的識彆過程要更加複雜.由于短語中引入瞭大量非名詞性詞彙,隨之產生瞭更多種的譟聲數據,不僅需要判斷短語結構是否完整,還要攷慮短語內部詞彙的搭配閤理性、衡量短語中所負載領域信息量等問題.文中將詞組型術語抽取過程中遇到的這三箇問題作為切入點,分彆使用子串歸併、搭配檢驗和領域相關度計算技術來解決這三箇問題,分析詞組型術語自身的結構特徵以及其在語料中的分佈特徵,完善詞組型術語的抽取任務.實驗證實瞭該方法能夠有效提升低頻術語和基礎術語的排序位置,從而改善瞭中文詞組型術語抽取繫統的性能.
중문술어추취시신식추취、문본알굴이급지식획취등신식처리임무중적관건기술.상대우단사형술어,사조형술어적식별과정요경가복잡.유우단어중인입료대량비명사성사회,수지산생료경다충적조성수거,불부수요판단단어결구시부완정,환요고필단어내부사회적탑배합이성、형량단어중소부재영역신식량등문제.문중장사조형술어추취과정중우도적저삼개문제작위절입점,분별사용자천귀병、탑배검험화영역상관도계산기술래해결저삼개문제,분석사조형술어자신적결구특정이급기재어료중적분포특정,완선사조형술어적추취임무.실험증실료해방법능구유효제승저빈술어화기출술어적배서위치,종이개선료중문사조형술어추취계통적성능.