中国图书馆学报
中國圖書館學報
중국도서관학보
The Journal of The Library Science in China
2010年
1期
56~62
,共null页
信息抽取 中文同义词 同义词抽取 百科语料库
信息抽取 中文同義詞 同義詞抽取 百科語料庫
신식추취 중문동의사 동의사추취 백과어료고
Synonyms extraction. Chinese synonyms. Information extraction. Encyclopedia knowledge.
采用实证的方法,以百度百科语料库为实验抽取对象,在对同义词自动抽取技术分析比较的基础上,提出了多策略的中文同义词抽取的思路。综合利用字面相似度方法、特征模式匹配方法和PageRank链接分析方法对中文百科语料库中的同义词进行自动获取,具有多领域适用性、获取同义词类型多样性等特点。实验结果表明,该方法具有可行性,并可应用于其它语种的同义词自动获取中。未来的研究应进一步实现模式的自动定义、完善抽词词典、有效排除噪音数据并构建能真实反映语义关系的词汇矩阵。图1。表6。参考文献13。
採用實證的方法,以百度百科語料庫為實驗抽取對象,在對同義詞自動抽取技術分析比較的基礎上,提齣瞭多策略的中文同義詞抽取的思路。綜閤利用字麵相似度方法、特徵模式匹配方法和PageRank鏈接分析方法對中文百科語料庫中的同義詞進行自動穫取,具有多領域適用性、穫取同義詞類型多樣性等特點。實驗結果錶明,該方法具有可行性,併可應用于其它語種的同義詞自動穫取中。未來的研究應進一步實現模式的自動定義、完善抽詞詞典、有效排除譟音數據併構建能真實反映語義關繫的詞彙矩陣。圖1。錶6。參攷文獻13。
채용실증적방법,이백도백과어료고위실험추취대상,재대동의사자동추취기술분석비교적기출상,제출료다책략적중문동의사추취적사로。종합이용자면상사도방법、특정모식필배방법화PageRank련접분석방법대중문백과어료고중적동의사진행자동획취,구유다영역괄용성、획취동의사류형다양성등특점。실험결과표명,해방법구유가행성,병가응용우기타어충적동의사자동획취중。미래적연구응진일보실현모식적자동정의、완선추사사전、유효배제조음수거병구건능진실반영어의관계적사회구진。도1。표6。삼고문헌13。
The automatic extraction of Chinese synonyms plays an important role in information retrieval and semantic resource construction. Based on analyzing and comparing the different techniques of synonym extraction, this paper proposes a multi-strategic method consisting of literal similarity algorithm, pattern matching algorithm and PageRank algorithm to extract Chinese synonyms from encyclopedia resources. The method supports any domain and is able to extract synonyms in various expressions. The result of experiments indicates that the method is feasible and practical, and at the same time, it is suitable to extract synonyms in other languages. 1 fig. 6 tabs. 13 refs.