计算机科学与探索
計算機科學與探索
계산궤과학여탐색
JOURNAL OF FRONTIERS OF COMPUTER SCIENCE & TECHNOLOGY
2013年
9期
819-830
,共12页
赵晨露%申德荣%寇月%聂铁铮%于戈
趙晨露%申德榮%寇月%聶鐵錚%于戈
조신로%신덕영%구월%섭철쟁%우과
模式匹配%数据导向%信息论模型
模式匹配%數據導嚮%信息論模型
모식필배%수거도향%신식론모형
schema matching%data-oriented%information theory model
随着计算机网络的发展,许多复杂庞大的异构数据集应运而生.为了有效利用这些异构数据,通常采用数据集成的方法,其中模式匹配是数据集成的核心技术.然而,许多数据集具有典型的异构性,并可能存在有重复数据、缺失数据、模式信息缺失等问题,导致传统的模式匹配技术无法适用.为此,研究了模式信息未知或者不完整情况下的模式匹配问题,提出了应用信息论的模式匹配模型.该模型完全基于数据分布的特点而不依赖于任何外部知识,能够准确地计算出属性列之间的相似度,并有效地描述数据集中各个属性列数据的分布特点和属性列之间的关联关系.还提出了构建原始数据分布图和演化数据分布图的算法,从而形式化地表达出属性列之间的关系,达到匹配的目的.在真实数据集上的综合实验评估证明了方法的可行性和有效性.
隨著計算機網絡的髮展,許多複雜龐大的異構數據集應運而生.為瞭有效利用這些異構數據,通常採用數據集成的方法,其中模式匹配是數據集成的覈心技術.然而,許多數據集具有典型的異構性,併可能存在有重複數據、缺失數據、模式信息缺失等問題,導緻傳統的模式匹配技術無法適用.為此,研究瞭模式信息未知或者不完整情況下的模式匹配問題,提齣瞭應用信息論的模式匹配模型.該模型完全基于數據分佈的特點而不依賴于任何外部知識,能夠準確地計算齣屬性列之間的相似度,併有效地描述數據集中各箇屬性列數據的分佈特點和屬性列之間的關聯關繫.還提齣瞭構建原始數據分佈圖和縯化數據分佈圖的算法,從而形式化地錶達齣屬性列之間的關繫,達到匹配的目的.在真實數據集上的綜閤實驗評估證明瞭方法的可行性和有效性.
수착계산궤망락적발전,허다복잡방대적이구수거집응운이생.위료유효이용저사이구수거,통상채용수거집성적방법,기중모식필배시수거집성적핵심기술.연이,허다수거집구유전형적이구성,병가능존재유중복수거、결실수거、모식신식결실등문제,도치전통적모식필배기술무법괄용.위차,연구료모식신식미지혹자불완정정황하적모식필배문제,제출료응용신식론적모식필배모형.해모형완전기우수거분포적특점이불의뢰우임하외부지식,능구준학지계산출속성렬지간적상사도,병유효지묘술수거집중각개속성렬수거적분포특점화속성렬지간적관련관계.환제출료구건원시수거분포도화연화수거분포도적산법,종이형식화지표체출속성렬지간적관계,체도필배적목적.재진실수거집상적종합실험평고증명료방법적가행성화유효성.