无线互联科技
無線互聯科技
무선호련과기
WUXIAN HULIAN KEJI
2014年
5期
172-172
,共1页
特征优选%相似重复记录%模糊聚类%相似度%策略
特徵優選%相似重複記錄%模糊聚類%相似度%策略
특정우선%상사중복기록%모호취류%상사도%책략
信息时代的来临,对大数据的检测和识别提出更高的要求,如检测精度更高和检测代价低廉。而传统的重复记录检测方法其特征属性繁多,数据源组成更为繁琐,导致检测精度不足和检测代价高昂问题的出现。为此,本文探索分析了相似重复记录检测的特征优选方案,从分组模糊聚类的原理出发,对相似重复几率的组内计算方法进行剖析,探究其在大数据集中检测精度和识别认识方面的优势。
信息時代的來臨,對大數據的檢測和識彆提齣更高的要求,如檢測精度更高和檢測代價低廉。而傳統的重複記錄檢測方法其特徵屬性繁多,數據源組成更為繁瑣,導緻檢測精度不足和檢測代價高昂問題的齣現。為此,本文探索分析瞭相似重複記錄檢測的特徵優選方案,從分組模糊聚類的原理齣髮,對相似重複幾率的組內計算方法進行剖析,探究其在大數據集中檢測精度和識彆認識方麵的優勢。
신식시대적래림,대대수거적검측화식별제출경고적요구,여검측정도경고화검측대개저렴。이전통적중복기록검측방법기특정속성번다,수거원조성경위번쇄,도치검측정도불족화검측대개고앙문제적출현。위차,본문탐색분석료상사중복기록검측적특정우선방안,종분조모호취류적원리출발,대상사중복궤솔적조내계산방법진행부석,탐구기재대수거집중검측정도화식별인식방면적우세。