中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2014年
5期
51-59
,共9页
字母缩略术语%术语消歧%Word Embedding%语义相似度
字母縮略術語%術語消歧%Word Embedding%語義相似度
자모축략술어%술어소기%Word Embedding%어의상사도
acronym term%term disambiguation%word embedding%semantic similarity
该文提出基于Word Embedding的歧义词多个义项语义表示方法,实现基于知识库的无监督字母缩略术语消歧.方法分两步聚类,首先采用显著相似聚类获得高置信度类簇,构造带有语义标签的文档集作为训练数据.利用该数据训练多份Word Embedding模型,以余弦相似度均值表示两个词之间的语义关系.在第二步聚类时,提出使用特征词扩展和语义线性加权来提高歧义分辨能力,提高消歧性能.该方法根据语义相似度扩展待消歧文档的特征词集合,挖掘聚类文档中缺失的语义信息,并使用语义相似度对特征词权重进行线性加权.针对25个多义缩略术语的消歧实验显示,特征词扩展使系统F值提高约4%,使用语义线性加权后F值再提高约2%,达到89.40%.
該文提齣基于Word Embedding的歧義詞多箇義項語義錶示方法,實現基于知識庫的無鑑督字母縮略術語消歧.方法分兩步聚類,首先採用顯著相似聚類穫得高置信度類簇,構造帶有語義標籤的文檔集作為訓練數據.利用該數據訓練多份Word Embedding模型,以餘絃相似度均值錶示兩箇詞之間的語義關繫.在第二步聚類時,提齣使用特徵詞擴展和語義線性加權來提高歧義分辨能力,提高消歧性能.該方法根據語義相似度擴展待消歧文檔的特徵詞集閤,挖掘聚類文檔中缺失的語義信息,併使用語義相似度對特徵詞權重進行線性加權.針對25箇多義縮略術語的消歧實驗顯示,特徵詞擴展使繫統F值提高約4%,使用語義線性加權後F值再提高約2%,達到89.40%.
해문제출기우Word Embedding적기의사다개의항어의표시방법,실현기우지식고적무감독자모축략술어소기.방법분량보취류,수선채용현저상사취류획득고치신도류족,구조대유어의표첨적문당집작위훈련수거.이용해수거훈련다빈Word Embedding모형,이여현상사도균치표시량개사지간적어의관계.재제이보취류시,제출사용특정사확전화어의선성가권래제고기의분변능력,제고소기성능.해방법근거어의상사도확전대소기문당적특정사집합,알굴취류문당중결실적어의신식,병사용어의상사도대특정사권중진행선성가권.침대25개다의축략술어적소기실험현시,특정사확전사계통F치제고약4%,사용어의선성가권후F치재제고약2%,체도89.40%.