科技创新导报
科技創新導報
과기창신도보
SCIENCE AND TECHNOLOGY CONSULTING HERALD
2009年
2期
43-45
,共3页
王咏梅%嵇晓%汪恒杰%冯安平
王詠梅%嵇曉%汪恆傑%馮安平
왕영매%혜효%왕항걸%풍안평
数据质量%聚类%多通道方法
數據質量%聚類%多通道方法
수거질량%취류%다통도방법
数据质量问题是企业在构建商务智能系统中遇到的最重要的问题之一,在处理面向VLDB数据质量的时候,对模糊重复记录的识别和整合非常困难.文章中提出了一种改进的面向VLDB数据质量处理算法,即先通过基于聚类的N-gram 改进算法来检测相似重复记录,采用pair-wisc 来计算相似重复度,用一个固定大小的优先队列窗口来聚类相似重复记录,同时引入转换关闭准则生成一种多路聚类方法,提高聚类的准确度.本文的算法在语言识别和关键字检测方面获得高于90%的准确率.
數據質量問題是企業在構建商務智能繫統中遇到的最重要的問題之一,在處理麵嚮VLDB數據質量的時候,對模糊重複記錄的識彆和整閤非常睏難.文章中提齣瞭一種改進的麵嚮VLDB數據質量處理算法,即先通過基于聚類的N-gram 改進算法來檢測相似重複記錄,採用pair-wisc 來計算相似重複度,用一箇固定大小的優先隊列窗口來聚類相似重複記錄,同時引入轉換關閉準則生成一種多路聚類方法,提高聚類的準確度.本文的算法在語言識彆和關鍵字檢測方麵穫得高于90%的準確率.
수거질량문제시기업재구건상무지능계통중우도적최중요적문제지일,재처리면향VLDB수거질량적시후,대모호중복기록적식별화정합비상곤난.문장중제출료일충개진적면향VLDB수거질량처리산법,즉선통과기우취류적N-gram 개진산법래검측상사중복기록,채용pair-wisc 래계산상사중복도,용일개고정대소적우선대렬창구래취류상사중복기록,동시인입전환관폐준칙생성일충다로취류방법,제고취류적준학도.본문적산법재어언식별화관건자검측방면획득고우90%적준학솔.