计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2009年
z2期
389-396
,共8页
朱命冬%申德荣%寇月%聂铁铮%于戈
硃命鼕%申德榮%寇月%聶鐵錚%于戈
주명동%신덕영%구월%섭철쟁%우과
深层网%编辑距离%重复记录
深層網%編輯距離%重複記錄
심층망%편집거리%중복기록
deep Web%edit distance%identify duplicate records
随着Web数据库数量和其蕴含数据量飞速的增长,对Deep Web数据的集成越来越成为研究领域关注的问题.然而由于Web上的信息以半结构化及无结构化的数据信息居多,导致了抽取的结果中包含诸多的不确定性.如有噪音数据、重复字符、简写与全称混合等问题.这给识别重复记录带来了很大不便,导致传统的去重算法无法达到很好的效果.为此,提出了一种面向deep Web结果整合的重复记录识别模型.在该模型中,提出了一种基于编辑距离的改进算法,基于该算法实现字符串匹配;通过构建属性匹配图,并采用二次确认机制实现识别重复记录.应用该模型,既提高了识别效率又保证了识别精确度,并通过实验证明了提出的算法和模型的可行性.
隨著Web數據庫數量和其蘊含數據量飛速的增長,對Deep Web數據的集成越來越成為研究領域關註的問題.然而由于Web上的信息以半結構化及無結構化的數據信息居多,導緻瞭抽取的結果中包含諸多的不確定性.如有譟音數據、重複字符、簡寫與全稱混閤等問題.這給識彆重複記錄帶來瞭很大不便,導緻傳統的去重算法無法達到很好的效果.為此,提齣瞭一種麵嚮deep Web結果整閤的重複記錄識彆模型.在該模型中,提齣瞭一種基于編輯距離的改進算法,基于該算法實現字符串匹配;通過構建屬性匹配圖,併採用二次確認機製實現識彆重複記錄.應用該模型,既提高瞭識彆效率又保證瞭識彆精確度,併通過實驗證明瞭提齣的算法和模型的可行性.
수착Web수거고수량화기온함수거량비속적증장,대Deep Web수거적집성월래월성위연구영역관주적문제.연이유우Web상적신식이반결구화급무결구화적수거신식거다,도치료추취적결과중포함제다적불학정성.여유조음수거、중복자부、간사여전칭혼합등문제.저급식별중복기록대래료흔대불편,도치전통적거중산법무법체도흔호적효과.위차,제출료일충면향deep Web결과정합적중복기록식별모형.재해모형중,제출료일충기우편집거리적개진산법,기우해산법실현자부천필배;통과구건속성필배도,병채용이차학인궤제실현식별중복기록.응용해모형,기제고료식별효솔우보증료식별정학도,병통과실험증명료제출적산법화모형적가행성.
With the rapid growth of Web database on number and volume,deep Web integration is increasingly becoming a concern research field.However,the information on Web is mostly composed of semi-structured and unstructured data,which contains a lot of uncertainty,such as noise data,repeat characters and the abbreviated name mixed.So identifying duplicate records has become very inconvenient and imprecise.The traditional algorithms can not achieve good results.In this case,a model is proposed to recognize duplicate records from deep Web search results.In the model,an improved edit distance-based algorithm is proposed to match the strings:attributes matching graph is constructed and twice verification strategy is adopted to identify duplicate records.It can achieve both effectiveness and accuracy by using the model,and the experiment results prove the feasibility of the algorithm and the model.