软件学报
軟件學報
연건학보
JOURNAL OF SOFTWARE
2010年
4期
702-717
,共16页
序列数据%相似性%聚类
序列數據%相似性%聚類
서렬수거%상사성%취류
现有的很多序列聚类算法是基于"局部特征可以表征整个序列"的假设来进行的,即不区分实际应用中序列的整体相似性和局部相似性.这对存在保守子模式的序列,如DNA和蛋白质序列是适用的,但对一些注重整体序列相似性的应用领域,如:在交易数据库中用户购买行为的比较,时间序列数据中全局模式的匹配等,由于难以产生频繁子模式,用基于全局相似性的度量方法进行聚类显得更为合理.此外,在基于局部相似性的序列聚类算法中,选取的局部子模式表征序列的能力也有待进一步提高.由此,针对不同应用领域,分别提出基于整体相似性的序列聚类算法GSClu和基于局部相似性的序列聚类算法LSClu.GSClu和LSClu分别利用带剪枝策略的二分k均值算法和基于有gap约束的强区分度子模式方法对各自领域的序列数据进行聚类.实验采用交易序列数据和蛋白质序列数据,实验结果表明,GSClu和LSClu对各自领域的序列数据具有较快的处理速度和良好的聚类质量.
現有的很多序列聚類算法是基于"跼部特徵可以錶徵整箇序列"的假設來進行的,即不區分實際應用中序列的整體相似性和跼部相似性.這對存在保守子模式的序列,如DNA和蛋白質序列是適用的,但對一些註重整體序列相似性的應用領域,如:在交易數據庫中用戶購買行為的比較,時間序列數據中全跼模式的匹配等,由于難以產生頻繁子模式,用基于全跼相似性的度量方法進行聚類顯得更為閤理.此外,在基于跼部相似性的序列聚類算法中,選取的跼部子模式錶徵序列的能力也有待進一步提高.由此,針對不同應用領域,分彆提齣基于整體相似性的序列聚類算法GSClu和基于跼部相似性的序列聚類算法LSClu.GSClu和LSClu分彆利用帶剪枝策略的二分k均值算法和基于有gap約束的彊區分度子模式方法對各自領域的序列數據進行聚類.實驗採用交易序列數據和蛋白質序列數據,實驗結果錶明,GSClu和LSClu對各自領域的序列數據具有較快的處理速度和良好的聚類質量.
현유적흔다서렬취류산법시기우"국부특정가이표정정개서렬"적가설래진행적,즉불구분실제응용중서렬적정체상사성화국부상사성.저대존재보수자모식적서렬,여DNA화단백질서렬시괄용적,단대일사주중정체서렬상사성적응용영역,여:재교역수거고중용호구매행위적비교,시간서렬수거중전국모식적필배등,유우난이산생빈번자모식,용기우전국상사성적도량방법진행취류현득경위합리.차외,재기우국부상사성적서렬취류산법중,선취적국부자모식표정서렬적능력야유대진일보제고.유차,침대불동응용영역,분별제출기우정체상사성적서렬취류산법GSClu화기우국부상사성적서렬취류산법LSClu.GSClu화LSClu분별이용대전지책략적이분k균치산법화기우유gap약속적강구분도자모식방법대각자영역적서렬수거진행취류.실험채용교역서렬수거화단백질서렬수거,실험결과표명,GSClu화LSClu대각자영역적서렬수거구유교쾌적처리속도화량호적취류질량.