武汉工程大学学报
武漢工程大學學報
무한공정대학학보
JOURNAL OF WUHAN INSTITUTE OF TECHNOLOGY
2014年
9期
66-69
,共4页
相似重复记录%大数据%同义属性
相似重複記錄%大數據%同義屬性
상사중복기록%대수거%동의속성
approximately duplicated records%big data%MapReduce%synonymous property
大数据环境下的相似重复记录影响数据统计分析结果的准确性,需要过滤相似重复记录.对相似重复记录检测的研究现状做了介绍,在此基础上提出了属性加权的思想,对属性进行加权,并根据属性权值进行排序分组;在对属性加权时,考虑到一些字段的取值是一一对应的关系,权值相同,提出了同义属性的概念,在原数据集的基础上排除部分同义属性来缩减数据集,提高重复数据检测的效率,最后给出了相似重复记录判定的方法.考虑到大数据集给重复记录检测带来的挑战,将大数据集拆分成若干小数据集,充分利用MapRe-duce机制进行处理,将大数据集按照权重较大的属性取值进行分组,分割成若干个map任务,分别进行处理.实验结果表明,该方法能够有效地提高相似重复记录检测的效率.
大數據環境下的相似重複記錄影響數據統計分析結果的準確性,需要過濾相似重複記錄.對相似重複記錄檢測的研究現狀做瞭介紹,在此基礎上提齣瞭屬性加權的思想,對屬性進行加權,併根據屬性權值進行排序分組;在對屬性加權時,攷慮到一些字段的取值是一一對應的關繫,權值相同,提齣瞭同義屬性的概唸,在原數據集的基礎上排除部分同義屬性來縮減數據集,提高重複數據檢測的效率,最後給齣瞭相似重複記錄判定的方法.攷慮到大數據集給重複記錄檢測帶來的挑戰,將大數據集拆分成若榦小數據集,充分利用MapRe-duce機製進行處理,將大數據集按照權重較大的屬性取值進行分組,分割成若榦箇map任務,分彆進行處理.實驗結果錶明,該方法能夠有效地提高相似重複記錄檢測的效率.
대수거배경하적상사중복기록영향수거통계분석결과적준학성,수요과려상사중복기록.대상사중복기록검측적연구현상주료개소,재차기출상제출료속성가권적사상,대속성진행가권,병근거속성권치진행배서분조;재대속성가권시,고필도일사자단적취치시일일대응적관계,권치상동,제출료동의속성적개념,재원수거집적기출상배제부분동의속성래축감수거집,제고중복수거검측적효솔,최후급출료상사중복기록판정적방법.고필도대수거집급중복기록검측대래적도전,장대수거집탁분성약간소수거집,충분이용MapRe-duce궤제진행처리,장대수거집안조권중교대적속성취치진행분조,분할성약간개map임무,분별진행처리.실험결과표명,해방법능구유효지제고상사중복기록검측적효솔.