计算机研究与发展
計算機研究與髮展
계산궤연구여발전
Journal of Computer Research and Development
2015年
9期
1992-2001
,共10页
数据质量%数据时效性%数据修复%数据质量规则%分布表
數據質量%數據時效性%數據脩複%數據質量規則%分佈錶
수거질량%수거시효성%수거수복%수거질량규칙%분포표
data quality%data currency%data repairing%data quality rules%distribution table
数据过时问题普遍存在于实际应用中,因此将数据库中的过时数据修复为最新值是提高数据质量的关键步骤。当前主要有基于规则和基于统计2类数据修复方法。基于规则的修复方法能够将领域知识直观地表达为规则的形式,但是难以表达数据中某些复杂的关联关系;基于统计的方法能够表达数据中的复杂关联关系,并修复许多通过规则难以发现和修复的错误,但是该类方法均需要学习较复杂的条件概率分布,且难以直接应用数据语义相关的领域知识。研究数据时效性的修复问题,同时,为了克服当前2类数据修复方法的缺点,提出一类新的修复规则,将规则和统计的方法结合起来修复过时数据。该规则一方面能够以传统规则的方式表达领域知识,另一方面还能够使用其特有的分布表来描述数据随时间变化的统计信息。接着,还给出了修复规则学习算法和数据时效性修复算法。真实和虚拟数据上的实验均验证了算法的有效性。
數據過時問題普遍存在于實際應用中,因此將數據庫中的過時數據脩複為最新值是提高數據質量的關鍵步驟。噹前主要有基于規則和基于統計2類數據脩複方法。基于規則的脩複方法能夠將領域知識直觀地錶達為規則的形式,但是難以錶達數據中某些複雜的關聯關繫;基于統計的方法能夠錶達數據中的複雜關聯關繫,併脩複許多通過規則難以髮現和脩複的錯誤,但是該類方法均需要學習較複雜的條件概率分佈,且難以直接應用數據語義相關的領域知識。研究數據時效性的脩複問題,同時,為瞭剋服噹前2類數據脩複方法的缺點,提齣一類新的脩複規則,將規則和統計的方法結閤起來脩複過時數據。該規則一方麵能夠以傳統規則的方式錶達領域知識,另一方麵還能夠使用其特有的分佈錶來描述數據隨時間變化的統計信息。接著,還給齣瞭脩複規則學習算法和數據時效性脩複算法。真實和虛擬數據上的實驗均驗證瞭算法的有效性。
수거과시문제보편존재우실제응용중,인차장수거고중적과시수거수복위최신치시제고수거질량적관건보취。당전주요유기우규칙화기우통계2류수거수복방법。기우규칙적수복방법능구장영역지식직관지표체위규칙적형식,단시난이표체수거중모사복잡적관련관계;기우통계적방법능구표체수거중적복잡관련관계,병수복허다통과규칙난이발현화수복적착오,단시해류방법균수요학습교복잡적조건개솔분포,차난이직접응용수거어의상관적영역지식。연구수거시효성적수복문제,동시,위료극복당전2류수거수복방법적결점,제출일류신적수복규칙,장규칙화통계적방법결합기래수복과시수거。해규칙일방면능구이전통규칙적방식표체영역지식,령일방면환능구사용기특유적분포표래묘술수거수시간변화적통계신식。접착,환급출료수복규칙학습산법화수거시효성수복산법。진실화허의수거상적실험균험증료산법적유효성。
Fixing obsolete data to latest values is a common challenge w hen improving data quality . Previous methods of data repairing can be divided into two categories ,that is ,the methods based on quality rules and the methods based on statistic techniques . The former can express the domain know ledge ,but fall short in their ability to detect and represent some complex relationships of data . The latter can fix some errors that quality rules cannot detect or repair ,but the current methods need to learn complex conditional probability distribution , and they cannot involve domain knowledge effectively .To overcome the shortages of the above two kinds of methods ,this paper focuses on combining quality rules and statistical techniques to improve data currency .A new class of rules for repairing data currency is proposed .Domain knowledge can be directly expressed by the antecedents and consequents of rules ,and the statistical information can be described by the distribution tables corresponding to each rules .Based on these rules , the algorithms for learning repairing rules and fixing obsolete data are provided .The experiments based on both real and synthetic data prove the efficiency and effectiveness of the methods .