计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2015年
5期
114-118,141
,共6页
符号序列%聚类%相似度%规范化因子
符號序列%聚類%相似度%規範化因子
부호서렬%취류%상사도%규범화인자
Categorical sequence%Clustering%Similarity%Normalized variant
符号序列由有限个符号按一定顺序排列而成,广泛存在于数据挖掘的许多应用领域,如基因序列、蛋白质序列和语音序列等.作为序列挖掘的一种主要方法,序列聚类分析在识别序列数据内在结构等方面具有重要的应用价值;同时,由于符号序列间相似性度量较为困难,序列聚类也是当前的一项开放性难题.首先提出一种新的符号序列相似度度量,引入长度规范因子解决现有度量对序列长度敏感的问题,从而提高了符号序列相似度度量的有效性.在此基础上,提出一种新的聚类方法,根据样本相似度构建无回路连通图,通过图划分进行符号序列的层次聚类.在多个实际数据集上的实验结果表明,采用规范化度量的新方法可以有效提高符号序列的聚类精度.
符號序列由有限箇符號按一定順序排列而成,廣汎存在于數據挖掘的許多應用領域,如基因序列、蛋白質序列和語音序列等.作為序列挖掘的一種主要方法,序列聚類分析在識彆序列數據內在結構等方麵具有重要的應用價值;同時,由于符號序列間相似性度量較為睏難,序列聚類也是噹前的一項開放性難題.首先提齣一種新的符號序列相似度度量,引入長度規範因子解決現有度量對序列長度敏感的問題,從而提高瞭符號序列相似度度量的有效性.在此基礎上,提齣一種新的聚類方法,根據樣本相似度構建無迴路連通圖,通過圖劃分進行符號序列的層次聚類.在多箇實際數據集上的實驗結果錶明,採用規範化度量的新方法可以有效提高符號序列的聚類精度.
부호서렬유유한개부호안일정순서배렬이성,엄범존재우수거알굴적허다응용영역,여기인서렬、단백질서렬화어음서렬등.작위서렬알굴적일충주요방법,서렬취류분석재식별서렬수거내재결구등방면구유중요적응용개치;동시,유우부호서렬간상사성도량교위곤난,서렬취류야시당전적일항개방성난제.수선제출일충신적부호서렬상사도도량,인입장도규범인자해결현유도량대서렬장도민감적문제,종이제고료부호서렬상사도도량적유효성.재차기출상,제출일충신적취류방법,근거양본상사도구건무회로련통도,통과도화분진행부호서렬적층차취류.재다개실제수거집상적실험결과표명,채용규범화도량적신방법가이유효제고부호서렬적취류정도.