计算机科学与探索
計算機科學與探索
계산궤과학여탐색
JOURNAL OF FRONTIERS OF COMPUTER SCIENCE & TECHNOLOGY
2013年
10期
924-932
,共9页
余海洋%林琛%陈珂%江弋%邹权
餘海洋%林琛%陳珂%江弋%鄒權
여해양%림침%진가%강익%추권
编辑距离%相似性连接%多次匹配%数据清理%Pass-Join-K算法
編輯距離%相似性連接%多次匹配%數據清理%Pass-Join-K算法
편집거리%상사성련접%다차필배%수거청리%Pass-Join-K산법
edit distance%similarity join%multi-match%data cleaning%Pass-Join-K
相似性连接是数据清理工作的基本模型,获得了大量数据库工作者的关注.研究了基于编辑距离的相似性连接问题,即在两个字符串集合中寻找编辑距离小于一个阈值的字符串对,并在Pass-Join算法的基础上,提出了一个新的Pass-Join-K算法.Pass-Join-K算法在长短字符串上都有很好的表现.该算法的主要思想是利用Pass-Join算法的划分原理,以多次匹配的方式,达到更加严格地选取候选配对的目的.实验结果显示,Pass-Join-K算法减少了候选对的数量,在实际数据集上相比元算法在运行时间上有2~5倍的提升.
相似性連接是數據清理工作的基本模型,穫得瞭大量數據庫工作者的關註.研究瞭基于編輯距離的相似性連接問題,即在兩箇字符串集閤中尋找編輯距離小于一箇閾值的字符串對,併在Pass-Join算法的基礎上,提齣瞭一箇新的Pass-Join-K算法.Pass-Join-K算法在長短字符串上都有很好的錶現.該算法的主要思想是利用Pass-Join算法的劃分原理,以多次匹配的方式,達到更加嚴格地選取候選配對的目的.實驗結果顯示,Pass-Join-K算法減少瞭候選對的數量,在實際數據集上相比元算法在運行時間上有2~5倍的提升.
상사성련접시수거청리공작적기본모형,획득료대량수거고공작자적관주.연구료기우편집거리적상사성련접문제,즉재량개자부천집합중심조편집거리소우일개역치적자부천대,병재Pass-Join산법적기출상,제출료일개신적Pass-Join-K산법.Pass-Join-K산법재장단자부천상도유흔호적표현.해산법적주요사상시이용Pass-Join산법적화분원리,이다차필배적방식,체도경가엄격지선취후선배대적목적.실험결과현시,Pass-Join-K산법감소료후선대적수량,재실제수거집상상비원산법재운행시간상유2~5배적제승.