情报学报
情報學報
정보학보
2010年
1期
93-99
,共7页
基于标注语料库的有指导学习方法是词义消歧取得性能最好的方法,优于无指导学习方法和基于词典的方法.它的准确率极大地依赖于标注语料库的规模,而目前人工标注语料库数量极少,缺乏标注语料就成为制约词义消歧发展的瓶颈,如何生成大规模标注语料成为词义消歧研究热点.自举是解决上述问题的重要方法,它以小规模标注语料作为种子,运用机器学习算法生成大规模标注语料.本文对自举在词义消歧中的应用和关键问题进行介绍.首先对自举进行算法描述,然后分别从中英文词义消歧领域介绍自举的应用情况,最后对自举应用涉及的初始种子、自举参数、未标注语料集的选择和互联网应用等几个关键问题进行总结.
基于標註語料庫的有指導學習方法是詞義消歧取得性能最好的方法,優于無指導學習方法和基于詞典的方法.它的準確率極大地依賴于標註語料庫的規模,而目前人工標註語料庫數量極少,缺乏標註語料就成為製約詞義消歧髮展的瓶頸,如何生成大規模標註語料成為詞義消歧研究熱點.自舉是解決上述問題的重要方法,它以小規模標註語料作為種子,運用機器學習算法生成大規模標註語料.本文對自舉在詞義消歧中的應用和關鍵問題進行介紹.首先對自舉進行算法描述,然後分彆從中英文詞義消歧領域介紹自舉的應用情況,最後對自舉應用涉及的初始種子、自舉參數、未標註語料集的選擇和互聯網應用等幾箇關鍵問題進行總結.
기우표주어료고적유지도학습방법시사의소기취득성능최호적방법,우우무지도학습방법화기우사전적방법.타적준학솔겁대지의뢰우표주어료고적규모,이목전인공표주어료고수량겁소,결핍표주어료취성위제약사의소기발전적병경,여하생성대규모표주어료성위사의소기연구열점.자거시해결상술문제적중요방법,타이소규모표주어료작위충자,운용궤기학습산법생성대규모표주어료.본문대자거재사의소기중적응용화관건문제진행개소.수선대자거진행산법묘술,연후분별종중영문사의소기영역개소자거적응용정황,최후대자거응용섭급적초시충자、자거삼수、미표주어료집적선택화호련망응용등궤개관건문제진행총결.