计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2012年
27期
136-141
,共6页
字符串相似度%名字消歧%名字匹配%机器学习
字符串相似度%名字消歧%名字匹配%機器學習
자부천상사도%명자소기%명자필배%궤기학습
准确匹配实体名称在信息系统集成中有广泛的应用,而在中文环境中,实体名称的变化和笔误使得中文实体名称难以准确匹配,所以需要开发出适应这些变化和笔误的匹配方法.中文实体名称的相似度从字、词、语义三个层次计算出来,将这些相似度线性合并起来,集成各自的优势.为了利用更多的匹配特征,引入了两种机器学习的方法:第一种方法通过训练获得一个优化排序和最佳切分点;第二种方法利用支持向量机来判断两个名称是否指向同一实体.在中文实体名称的数据集上的实验表明,这些方法和特征有效提高了匹配的效果.
準確匹配實體名稱在信息繫統集成中有廣汎的應用,而在中文環境中,實體名稱的變化和筆誤使得中文實體名稱難以準確匹配,所以需要開髮齣適應這些變化和筆誤的匹配方法.中文實體名稱的相似度從字、詞、語義三箇層次計算齣來,將這些相似度線性閤併起來,集成各自的優勢.為瞭利用更多的匹配特徵,引入瞭兩種機器學習的方法:第一種方法通過訓練穫得一箇優化排序和最佳切分點;第二種方法利用支持嚮量機來判斷兩箇名稱是否指嚮同一實體.在中文實體名稱的數據集上的實驗錶明,這些方法和特徵有效提高瞭匹配的效果.
준학필배실체명칭재신식계통집성중유엄범적응용,이재중문배경중,실체명칭적변화화필오사득중문실체명칭난이준학필배,소이수요개발출괄응저사변화화필오적필배방법.중문실체명칭적상사도종자、사、어의삼개층차계산출래,장저사상사도선성합병기래,집성각자적우세.위료이용경다적필배특정,인입료량충궤기학습적방법:제일충방법통과훈련획득일개우화배서화최가절분점;제이충방법이용지지향량궤래판단량개명칭시부지향동일실체.재중문실체명칭적수거집상적실험표명,저사방법화특정유효제고료필배적효과.