传感器与微系统
傳感器與微繫統
전감기여미계통
TRANSDUCER AND MICROSYSTEM TECHNOLOGY
2011年
2期
37-40
,共4页
李鑫%李军%丰继林%高方平%李忠
李鑫%李軍%豐繼林%高方平%李忠
리흠%리군%봉계림%고방평%리충
特征优选%相似重复记录%模糊聚类%相似度
特徵優選%相似重複記錄%模糊聚類%相似度
특정우선%상사중복기록%모호취류%상사도
大数据集相似重复记录检测和识别中,数据源组成复杂、表征数据记录的特征属性过多,因而检测精度不高、执行检测的代价过大.针对这些问题,提出了一种分组模糊聚类的特征优选方法.首先进行分组记录的属性处理,以有效降低记录属性的维数,并获得分组中的代表性记录,然后采用一种相似度比较计算方法进行组内相似重复记录的检测.理论分析和实验表明:该方法有较高的识别精度和检测效率,能较好地解决大数据集中相似重复记录的识别问题.
大數據集相似重複記錄檢測和識彆中,數據源組成複雜、錶徵數據記錄的特徵屬性過多,因而檢測精度不高、執行檢測的代價過大.針對這些問題,提齣瞭一種分組模糊聚類的特徵優選方法.首先進行分組記錄的屬性處理,以有效降低記錄屬性的維數,併穫得分組中的代錶性記錄,然後採用一種相似度比較計算方法進行組內相似重複記錄的檢測.理論分析和實驗錶明:該方法有較高的識彆精度和檢測效率,能較好地解決大數據集中相似重複記錄的識彆問題.
대수거집상사중복기록검측화식별중,수거원조성복잡、표정수거기록적특정속성과다,인이검측정도불고、집행검측적대개과대.침대저사문제,제출료일충분조모호취류적특정우선방법.수선진행분조기록적속성처리,이유효강저기록속성적유수,병획득분조중적대표성기록,연후채용일충상사도비교계산방법진행조내상사중복기록적검측.이론분석화실험표명:해방법유교고적식별정도화검측효솔,능교호지해결대수거집중상사중복기록적식별문제.