计算机学报
計算機學報
계산궤학보
CHINESE JOURNAL OF COMPUTERS
2007年
8期
1259-1266
,共8页
杨一鸣%潘嵘%潘嘉林%杨强%李磊
楊一鳴%潘嶸%潘嘉林%楊彊%李磊
양일명%반영%반가림%양강%리뢰
分类%时间序列%基于模型聚类%马尔可夫模型%统计学习
分類%時間序列%基于模型聚類%馬爾可伕模型%統計學習
분류%시간서렬%기우모형취류%마이가부모형%통계학습
时间序列分类是时间序列数据分析中的重要任务之一.不同于时间序列分析中常用的算法与问题,时间序列分类是要把整个时间序列当作输入,其目的是要赋予这个序列某个离散标记.它比一般分类问题困难,主要在于要分类的时间序列数据不等长,这使得一般的分类算法不能直接应用.即使是等长的时间序列,由于不同序列在相同位置的数值一般不可直接比较,一般的分类算法依然还是不适合直接应用.为了解决这些难点,通常有两种方法:第一,定义合适的距离度量(这里,最常用的距离度量是DTW距离),使得在此度量意义下相近的序列有相同的分类标签,这类方法属于领域无关的方法;第二,首先对时间序列建模(利用序列中前后数据的依赖关系建立模型),再用模型参数组成等长向量来表示每条序列,最后用一般的分类算法进行训练和分类,这类方法属于领域相关的方法.长期以来,研究者往往只倾向于使用其中一种算法,而这两类算法的比较却比较缺乏.文中深入分析了这两类方法,并且分别在不同的合成数据集和实际数据集上比较了两类方法.作者观测到了两类算法在不同因素影响下的性能表现,从而为今后发展新的算法提供了有力依据.
時間序列分類是時間序列數據分析中的重要任務之一.不同于時間序列分析中常用的算法與問題,時間序列分類是要把整箇時間序列噹作輸入,其目的是要賦予這箇序列某箇離散標記.它比一般分類問題睏難,主要在于要分類的時間序列數據不等長,這使得一般的分類算法不能直接應用.即使是等長的時間序列,由于不同序列在相同位置的數值一般不可直接比較,一般的分類算法依然還是不適閤直接應用.為瞭解決這些難點,通常有兩種方法:第一,定義閤適的距離度量(這裏,最常用的距離度量是DTW距離),使得在此度量意義下相近的序列有相同的分類標籤,這類方法屬于領域無關的方法;第二,首先對時間序列建模(利用序列中前後數據的依賴關繫建立模型),再用模型參數組成等長嚮量來錶示每條序列,最後用一般的分類算法進行訓練和分類,這類方法屬于領域相關的方法.長期以來,研究者往往隻傾嚮于使用其中一種算法,而這兩類算法的比較卻比較缺乏.文中深入分析瞭這兩類方法,併且分彆在不同的閤成數據集和實際數據集上比較瞭兩類方法.作者觀測到瞭兩類算法在不同因素影響下的性能錶現,從而為今後髮展新的算法提供瞭有力依據.
시간서렬분류시시간서렬수거분석중적중요임무지일.불동우시간서렬분석중상용적산법여문제,시간서렬분류시요파정개시간서렬당작수입,기목적시요부여저개서렬모개리산표기.타비일반분류문제곤난,주요재우요분류적시간서렬수거불등장,저사득일반적분류산법불능직접응용.즉사시등장적시간서렬,유우불동서렬재상동위치적수치일반불가직접비교,일반적분류산법의연환시불괄합직접응용.위료해결저사난점,통상유량충방법:제일,정의합괄적거리도량(저리,최상용적거리도량시DTW거리),사득재차도량의의하상근적서렬유상동적분류표첨,저류방법속우영역무관적방법;제이,수선대시간서렬건모(이용서렬중전후수거적의뢰관계건립모형),재용모형삼수조성등장향량래표시매조서렬,최후용일반적분류산법진행훈련화분류,저류방법속우영역상관적방법.장기이래,연구자왕왕지경향우사용기중일충산법,이저량류산법적비교각비교결핍.문중심입분석료저량류방법,병차분별재불동적합성수거집화실제수거집상비교료량류방법.작자관측도료량류산법재불동인소영향하적성능표현,종이위금후발전신적산법제공료유력의거.