计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2007年
1期
71-73
,共3页
同体不同源数据%数化%数据清理
同體不同源數據%數化%數據清理
동체불동원수거%수화%수거청리
在数据仓库构建的数据清理过程中,同体不同源数据的发现一直是清理过程的难点.在现实情况下,存在的单一实体在不同的数据源中以不同的方式进行存储或者表达的同体不同源数据,传统数据清理技术对其发现、修正需要花费大量的时间和系统资源进行比较,实际效果并不理想.该文提出一种新型的、利用数据数字化存储特点来查找同体不同源数据的算法,能够有效减少数据间的比较次数,并确保数据清理结果的质量.
在數據倉庫構建的數據清理過程中,同體不同源數據的髮現一直是清理過程的難點.在現實情況下,存在的單一實體在不同的數據源中以不同的方式進行存儲或者錶達的同體不同源數據,傳統數據清理技術對其髮現、脩正需要花費大量的時間和繫統資源進行比較,實際效果併不理想.該文提齣一種新型的、利用數據數字化存儲特點來查找同體不同源數據的算法,能夠有效減少數據間的比較次數,併確保數據清理結果的質量.
재수거창고구건적수거청리과정중,동체불동원수거적발현일직시청리과정적난점.재현실정황하,존재적단일실체재불동적수거원중이불동적방식진행존저혹자표체적동체불동원수거,전통수거청리기술대기발현、수정수요화비대량적시간화계통자원진행비교,실제효과병불이상.해문제출일충신형적、이용수거수자화존저특점래사조동체불동원수거적산법,능구유효감소수거간적비교차수,병학보수거청리결과적질량.