基于边界距离的时间序列聚类

02-17

基于边界距离的时间序列聚类

李俊奎，王元珍，李新萍

华中科技大学计算机科学与技术学院(430074）

摘要：聚类的关键是定义对象之间的相似度或不相似度。提出了一种基于边界的时间序列距离度量D LB _HUST ，较之已存在的基于边界的时间序列距离度量D LB _Keogh ，D LB _HUST 更下界且是对称的距离度量，因而可以应用于时间序列聚类。引入了基于聚类边界的时间序列聚类方法，每次新加入时间序列到簇中后更新簇的边界，使新簇中各个时间序列对簇边界施加影响。实验结果表明，基于边界距离度量D LB _HUST 的时间序列聚类方法优于基于Euclidean 距离和

DTW 距离度量的聚类方法，其是有效可行的。

关键词：时间序列, 聚类, 边界, 对称距离

1. 引言

时间序列是一种重要的高维数据类型，它是由某个物理量在不同时间点的采样值按照时间先后次序排列而组成的序列。在科学、工程和商业领域具有广泛应用。如：股票市场每天的股票收盘价格数据、每季度乘坐某次航班的旅客数、电话公司每小时的话务量等都是时间序列数据。近年来，对于时间序列数据的挖掘激发了越来越多的研究人员的研究热情[9]。本文主要讨论时间序列数据的聚类。

聚类是根据数据的不同特征，将其分组成为不同的数据类或簇(Cluster)，使得同一簇个体之间的距离尽可能地小，而不同簇个体之间的距离尽可能的大[5]。给定一个数据集

X ={x 1, x 2,..., x n }，将其划分为k

个相似的子集簇{C 1, C 2,..., C k }，其中C i ⊆X ，且∪C i

i =1

。聚类的关键

是定义对象之间的相似度或不相似度。目前时间序列之间的相似度研究主要集中在对于时间序列的距离度量上。

Agrawal 等人[1]率先使用等长时间序列的Euclidean 距离度量时间序列间的相似度，后面基于此衍生出DFT [6]，Haar [4]，PCA [7]，PAA [12]，APCA [11]等时间序列以及子序列相似度度量。但是Euclidean 距离度量对于时间序列的突变比较敏感，对于不同步时间序列的相似度度量则会出现较大的偏差。 Berndt等人[2]则引入在语音识别中被广泛使用的DTW 距离作为时间序列的相似度度量距离。 Keogh等人[10]分析了DTW 距离的特性，针对时间序列索引和查询提出了基于时间序列边界的D LB _Keogh 距离，这是目前最好的时间序列度量距离，它下界于

Euclidean 距离和DTW 距离。但是D LB _Keogh 距离不是一种对称的时间序列距离度量，所以并不

适合直接应用于时间序列的聚类。针对这个问题，我们提出了一种对称的基于边界的时间序并且证明了它下界于D LB _Keogh ，从而为基于边界的时间序列距离度量应列距离度量D LB _HUST ，

用于时间序列聚类奠定了基础。

时间序列是一种特殊的高维数据，它具有随时间变化的幅度等特性，当前时间序列聚类中用簇中一个对象或变种来表示簇中心并不能完全反映簇中所有时间序列的影响。于是我们针对时间序列的这些特性，引入了时间序列簇的边界概念，并且证明分处两个时间序列簇的

- 1 -

时间序列的距离大于这两个时间序列簇的簇间距，然后提出了基于边界的时间序列聚类算法，每次有新的时间序列加入到簇中时，则自动更新簇的边界，体现簇中所有时间序列对于新簇的影响。

本文第2节给出基于边界的时间序列距离；第3节讨论基于边界的时间序列聚类算法；第4节给出实验结果及其分析；在第5节对全文的工作进行总结。

2. 基于边界的距离

在这一节中，我们首先介绍Keogh 等人提出的时间序列距离度量D LB _Keogh ，分析其不是对称的距离度量，接着给出对称的基于边界的时间序列距离度量D LB _HUST ，最后讨论该距离度量的重要特性。下面首先给出本文中使用的一些概念。

2.1 相关概念

定义 1(时间序列) 时间序列T =T (1),T (2),...,T (n ) 是一串按照时间顺序观测所得的n 个实数值。

定义2(对称的距离度量) 设D 是一个时间序列距离度量函数，若对∀S , T 为时间序列，有D (S , T ) =D (T , S ) ，则D 是一种对称的距离度量，否则D 是非对称的距离度量。

定义3(时间序列边界) 时间序列S =S (1),S (2),...,S (n ) 的边界分为上边界和下边界，是指在其上滑动大小为2w +1的滑动窗口形成的两个序列U S =U S (1),U S (2),...,U S (n ) 和

L S =L S (1),L S (2),...,L S (n ) ，其中：

U S (i ) =max(S （i −w ),..., S (i ),..., S (i +w )),1≤i ≤n . (1)

L S (i ) =min(S (i −w ),..., S (i ),..., S (i +w )),1≤i ≤n . (2)

由(1)(2)容易得出：

U S (i ) ≥S (i ) ≥L S (i ) ，1≤i ≤n (3)

时间序列边界示意如图1 所示。

图 1 时间序列的上下边界

2.2 一种非对称的时间序列距离度量

下面介绍D LB [10]_Keogh 。

Keogh 等人定义时间序列S 和T 之间的距离为：

- 2 -

D LB _Keogh (S , T ) = (4)

D LB _Keogh 的计算示意如图2所示。

图2 D LB _Keogh 距离度量

定理1 D LB _Keogh 满足Euclidean 距离下界。

证明：见文献[13]。

定理2 D LB _Keogh 满足DTW 距离下界。证明：见文献[10]。但是，D LB _Keogh 是非对称的距离度量。

定理3 D LB _Keogh 是非对称的距离度量，即∃S , T D LB _Keogh (S , T ) ≠D LB _Keogh (T , S ) 。证明：举反例如下：

则有：

U T (i ) =max(T (i −w ),..., T (i ),..., T (i +w )) =2， L T (i ) =min(T (i −w ),..., T (i ),..., T (i +w )) =−2， U S (i ) =max(S (i −w ),..., S (i ),..., S (i +w )) =1， L S (i ) =min(S (i −w ),..., S (i ),..., S (i +w )) =−1。

T (i ) =2 kw ≤i ≤(k +2) w , k ∈N ， −2 (k +2) w ⎧1 kw ≤i ≤(k +w S (i ) =⎨, k ∈N ，

k w i kw 12) − (+

{

(5) (6)

(7) (8) (9) (10) □

由(4)(7)(8)(9)(10)可得：

D LB _Keogh (S , T ) =0, D LB _Keogh (T , S ) >0。

2.3 一种对称的时间序列距离度量

根据聚类的特点，在聚类过程计算距离时需要距离度量满足对称要求。通过式(4)和图2可以看出，D LB _Keogh 不对称的关键原因在于时间序列S 和T 处于不对等地位，计算时间序列

S 中超出T 上下边界的部分距离，S 中未超出T 上下边界的部分距离计算为0。为了能够使S

和T 处于对等地位，我们比较S 和T 的各自边界，提出一种时间序列边界距离度量方法为：

- 3 -

D LB _HUST (S , T ) (11)

D LB _HUST 的计算示意如图3所示。

图3 D LB _HUST 距离度量

由式(11)和图3可以看出，D LB _HUST 计算时分别计算S 和T 的上下边界超出对方的最小部分，对于在边界内的部分则计算为0。由式(3)可得， D LB _HUST 中三种分支将两时间序列中数据的关系进行了划分，在任何情形下，只会同时满足一种分支条件。

定理4 D LB _HUST 下界于D LB _Keogh ，即

下面分情形计算：

(i ) L S (i ) >U T (i )

∀S , T D LB _HUST (S , T ) ≤D LB _Keogh (S , T )

(12) (13) (14)

证明：对∀S , T 由(3)我们有：

L S (i ) ≤S (i ) ≤U S (i ),1≤i ≤n . L T (i ) ≤T (i ) ≤U T (i ),1≤i ≤n .

由(13)(14)，我们有

U S (i ) ≥S (i ) ≥L S (i ) >U T (i ) ≥T (i ) ≥L T (i )

，于是有

S (i ) −U T (i ) ≥L S (i ) −U T (i ) >0，所以(S (i ) −U T (i )) 2≥(L S (i ) −U T (i )) 2。

(ii ) L T (i ) >U S (i ) 与(i ) 类似，可得T (i ) >U S (i ) 且(T (i ) −U S (i )) 2≥(L T (i ) −U S (i )) 2。

于是根据(4)(11)，我们可以得到：

D LB _HUST (S , T ) ≤D LB _Keogh (S , T ) 。

□

通过定理4，我们可以看出D LB _HUST 比D LB _Keogh 更下界，而由定理1和定理2， D LB _Keogh 分别下界于Euclidean 和DTW 距离，所以可得D LB _HUST 也下界于Euclidean 和DTW 距离，而且更重要的是，D LB _HUST 是一种对称的基于边界的距离度量。

定理5 D LB _HUST 是对称的距离度量，即∀S , T D LB _HUST (S , T ) =D LB _HUST (T , S ).

证明：由(11)易证，证明从略。

3. 基于边界的时间序列聚类算法

上一节给出了对称的基于边界的时间序列距离度量方法D LB _HUST ，这一节在此基础上讨论基于边界的时间序列聚类算法。首先我们列出聚类中用到的时间序列簇的相关定义。

- 4 -

3.1 时间序列簇相关定义

定义4(时间序列簇) 时间序列聚类形成的集合，记为C S 。

定义5(时间序列簇边界) 时间序列簇C S ={S 1, S 2,..., S k }边界是指包裹簇中所有时间序列的边界点所组成的曲线。分为上边界和下边界，分别记为U C S 和L C S ，定义为：

U C S =U C S (1),U C S (2),...,U C S (n ) ，其中：

U C S (i ) =max(U S 1(i ), U S 2(i ),..., U S k (i )),1≤i ≤n . (15)

L C S =L C S (1),L C S (2),...,L C S (n ) , 其中：

L C S (i ) =min(L S 1(i ), L S 2(i ),..., L S k (i )),1≤i ≤n . (16)

由(3)(15)(16)可以很容易得到：

定义3和定义5很相似，这为单一时间序列形成一个时间序列簇奠定了基础。时间序列簇边界示意如图4所示。

U C S (i ) ≥U s m (i ) ≥L s m (i ) ≥L C S (i ) ，1≤m ≤k (17)

图4 时间序列簇的上下边界

下面，我们定义时间序列簇间距离。

则C S 和C T 之间的距离为：

定义6(时间序列簇间距离) 设C S 和C T 分别是两个时间序列簇，

D LB _HUST (C S , C T ) (18)

若C T =∅，则定义D LB _HUST (C S , C T ) =D LB _HUST (C S , ∅) =0.

最近在文献[8]中也提出了与式(18)类似的时间序列集合间距离度量，用于数据流查询中的数据过滤，通过减少比较数据量而提高过滤效率。

从定义6可以看出，时间序列簇间距离是基于簇的边界点的距离，任意簇与空簇的簇间距离为0。又由(15)(16)，簇的边界点来自于簇中所有的时间序列，所以D LB _HUST (C S , C T ) 反映了簇C S 和C T 中时间序列对簇间距离的影响。

定义7(时间序列簇合并) 将时间序列簇C S 和C T 合并成C union ，记为C union =C S ∪C T ，其中：

U C union (i ) =max{U C S (i ), U C T (i )},1≤i ≤n . (19)

L C union (i ) =min{L C S (i ), L C T (i )},1≤i ≤n . (20)

- 5 -

若C T =∅，则定义C union =C S ∪C T =C S ∪∅=C S 。

由定义7可以看出，时间序列簇合并后的边界仍然是由包裹簇中所有时间序列的边界点构成，新加入的时间序列对簇的边界将产生影响。若任意簇与空簇合并，则合并后的簇即为该簇。

下面我们证明一个时间序列边界距离的重要定理。定理6 给定两个时间序列簇C S 和C T ，∀S ∈C S , T ∈C T 有：

(i ) L C S (i ) >U C T (i )

D LB _HUST (C S , C T ) ≤D LB _HUST (S , T )

(21)

证明：与定理4的证明类似，我们分情形计算：

由(3)(17)可得L S (i ) ≥L C S (i ) >U C T (i ) ≥U T (i ) ，于是有L S (i ) −U T (i ) >L C S (i ) −U C T (i ) >0，所以

(L S (i ) −U T (i )) 2>(L C S (i ) −U C T (i )) 2。

(ii ) L C T (i ) >U C S (i ) 类似于(i ) ，可得(L T (i ) −U S (i )) 2>(L C T (i ) −U C S (i )) 2。

又由(11)(18)可得 D LB _HUST (C S , C T ) ≤D LB _HUST (S , T ) □

由定理6可知，分处两个时间序列簇的任意两个时间序列的距离均大于簇间距离，所以时间序列簇间距离能够用于聚类距离衡量，这即是我们基于边界距离的时间序列聚类算法的理论依据。

3.2 基于边界的时间序列聚类算法

下面讨论基于边界距离的时间序列聚类算法。

基于边界距离的时间序列聚类算法的基本思想是：首先时间序列数据库中的所有时间序列都看作是由其上下边界包裹形成的一个簇，然后取出各个簇与结果簇依次比较，如果簇间距离小于给定簇间距离阈值D cluster ，则根据定义7将该簇合并到结果簇中。若没有簇间距离小于D cluster 的结果簇，则将该簇合并到与该簇簇间距离最小的结果簇中。

算法1 基于边界距离的时间序列聚类算法BoundaryDistance-BasedTSClustering 。输入：时间序列数据库TSDB ，簇间距离阈值D cluster ，滑动窗口参数w ，聚类最大数目K 。输出：聚类结果Clusters ={Cluster 1, Cluster 2,..., Cluster K }。

1) 初始化Clusters ，其中Cluster i ←∅(1≤i ≤K ); // 时间序列聚类结果置空 2) FOR each S ∈TSDB DO // 扫描时间序列数据库 3) 对S 施加大小为2w +1的滑动窗口，按式(1)(2)分别形成U S 和L S ; 4) C S ←{S };U C S ←U S ; L C S ←L S ; // 每个时间序列首先自成一簇

5) min Dist ←MAX _POSSIBLE ;min ClusterNum ←1; //初始化当前最小的簇间距离和簇编号 6) FOR i =1 TO K DO // 与各结果簇进行比较 7) dist =D LB _HUST (C S , Cluster i ); // 计算簇间距离

8) IF dist

- 6 -

12) IF i ==K // 无结果簇与该簇簇间距离小于D cluster 13) Cluster min ClusterNum ←Cluster min ClusterNum ∪C S ; // 将C S 与最小簇间距结果簇合并 14) Return Clusters ={Cluster 1, Cluster 2,..., Cluster K }; // 返回聚类结果

设|TSDB |=n ，则算法第1) 步是初始化聚类结果，时间开销为O (1)，第2)-4) 步首先从各时间序列分解出边界并自成一簇，时间开销为O (n ) ，第6)-13) 步是将簇与各个结果簇进行逐个比较，如果与结果簇的簇间距离小于D cluster ，则将该簇合并到结果簇中，否则记下最小的簇间距离和簇编号。若在结果簇中没有满足簇间距离小于D cluster 的簇，则将该簇合并到与该簇具有最小簇间距离的结果簇中，其中第6)-11) 步最多执行K 次，时间开销为O (nK ) ，第12)-13) 步时间开销为O (n ) ，第14) 步返回聚类结果集，时间开销为O (1)。则算法的总时间开销为：

O (1)+O (n ) +O (nK ) +O (n ) +O (1)=O (nK ).

(22)

设TSDB 中时间序列长度为l ，算法每次为时间序列分配两个大小为l 的向量存储上下边界，故算法的总空间开销为：

O (2l ) =O (l ) 。 (23)

4. 实验研究

4.1 聚类评价标准

聚类结果的评价是一个复杂的问题。以往的方法是通过人的直观经验和观察来解释聚类结果，并给出对结果的评判。虽然出现过几种评价方法[5]，但是还没有一种统一的方法。我们从聚类的定义和目标出发，给出一种聚类算法的评价标准如下：

p =

∑C

i =1

i 1≤i

∑

D (s i , s j )

1≤i

D (C i , C j )

(24)

其中分子部分表示在聚类结果中各类中的时间序列的平均距离之和，分母部分表示在聚类结果中各类间距离之和。聚类的目的是将给定数据分成不同的类，使类内的数据比较相似，而类间的数据则比较不相似。故对于给定的数据，p 越小则表示聚类的效果越明显。

另外一个经常用于评价聚类质量的标准是使用侧影宽度(silhouette width)，具体定义见文献[15]。侧影宽度s (i ) 总是落在-1到1之间。如果s (i ) 接近于1，则表明对象i 的聚类效果好; 如果接近于0，则对象i 落在两个簇之间，如果接近于-1则表明对象i 的聚类效果较差，一般认为如果s (i ) 大于0.5，则对对象i 的聚类结果可以接受。

我们同时采用这两种评价标准来分析实验中的聚类结果。

4.2 实验环境和准备

由定理3，D LB _Keogh 是非对称的距离度量，并不适用于时间序列的聚类。我们分别实现了基于Euclidean 距离、DTW 距离和D LB _HUST 距离的时间序列聚类。我们的实验环境是：操作系统Windows2000Server ，内存256M ，硬盘40G 。，CPU PIII-866。实验数据集选用Income 数据集[3]，其中包括美国25个州1929-2004这76年中个人收入的统计数据。以及UCR 时

- 7 -

间序列数据集Synthetic Control Chart Time Series[14]，其中包含600个合成的时间序列数据，每个时间数据长度为60，分为Normal ， Cyclic， Increasing trend ， Decreasing trend ， Upward shift ， Downward shift6种类型。

实验中为了消除因为数据集中具体数值对不同距离度量的影响，首先进行正则化处理，使数据在相同幅值范围内：

X S (i ) =

S (i ) −[(max(S ) −min(S )]2

(25)

[max(S ) +min(S )]/2

其中max(S ) 和min(S ) 分别是序列S 的最大值和最小值，易知X S (i ) ≤1，而且X S 的轮廓与S 相似。

由前面讨论，D LB _HUST 下界于Euclidean 和DTW 距离，所以在各实验中使用三种距离进行聚类时我们根据距离度量的数量级给出簇间距离阈值D cluster 。实际上我们在算法中给出D cluster 是为了避免在算法初始阶段由于时间序列簇与空簇距离为0，而导致前K 个时间序列都自动如果与已经存在的结果簇的距离小于D cluster ，将立即发生归并，归并到空簇中。引入D cluster 后，而不再与空簇比较。

实验结果中计算p 值时，对于计算Euclidean 和DTW 聚类时类之间距离D (C i , C j ) 采用的是类的上下边界的均值形成的曲线。

4.3 实验结果和分析

实验1 对Income 数据集进行聚类。我们在实验中取K =3，w =3，在Euclidean 聚类时采用D cluster =1e −1，在DTW 聚类时采用D cluster =0.4，在D LB _HUST 采用D cluster =1e −4. 实验结果分别如表1和图5、6所示。

图 5 在不同距离度量下聚类的p 值

图 6 各簇的平均侧影宽度

- 8 -

表1三种聚类Income 过程中的侧影距离和簇编号

Euclidean DTW 距离聚类时ND 与其他各对象的距离较大而导致其侧影宽度接近-1， D LB _HUST 距离在聚类初始阶段效果不佳，但总体效果较好。这是由于D LB _HUST 距离聚类时对象间距离较小，要设定最优的D cluster 比较困难所致。

实验2 对Synthetic Control Chart Time Series数据集进行聚类。由于在数据集产生说明中已经预先获知分为6种类型，所以实验中我们取K =6，w =5，在Euclidean 聚类时采用

D cluster =2.5，在DTW 聚类时采用D cluster =3.5，在D LB _HUST 聚类时采用D cluster =1e −2。限于篇幅，

我们只给出p 和各个簇平均侧影距离。实验结果分别如图7和图8所示。

- 9 -

图 7 在不同距离度量下聚类的p 值

图 8 各簇的平均侧影宽度

可以看出， D LB _HUST 在以p 为标准时，与DTW 比较接近，两者都比Euclidean 显著，但若以侧影宽度为标准，则使用D LB _HUST 时各簇的平均侧影宽度标准较之DTW 和Euclidean 更好。其原因是D LB _HUST 不仅更加下界，而且由定理6，给定一定条件的D cluster 后， D LB _HUST 能够灵敏地识别出在这个距离以内的所有时间序列并将其聚类。

5. 结束语

本文主要研究时间序列的聚类问题。针对当前基于边界时间序列距离度量D LB _Keogh 不适合应用于时间序列聚类的问题，提出了一种对称的时间序列距离度量D LB _HUST ，证明D LB _HUST 比D LB _Keogh 更下界。为了表示聚类过程中簇中时间序列对簇的影响，引入了时间序列簇边界概念，证明分处两个时间序列簇的时间序列的距离大于这两个时间序列簇的簇间距，并以此为基础，提出了基于边界距离D LB _HUST 的时间序列的聚类方法。并通过实验结果表明这种聚类方法优于基于Euclidean 和DTW 距离的聚类方法。

致谢在此，我们向对本文的工作给予支持和建议的同行表示感谢。

参考文献

[1] Agrawal R, Faloutsos C,Swami A. Efficient Similarity search in sequence databases.In: D.Lomet,

eds.Proc.of the 4th Conference on Foundations of Data Organization and Algorithms. Chicago,

Illinois: Springer Verlag, 1994.69-84. [2] Berndt D, Clifford J. Using dynamic time warping to find patterns in time series. AAAI Workshop

on Knowledge Discovery in Databases, 1994. 229-248. [3] Bureau of Economic Analysis: Regional Economic

Accounts.2006. http://www.bea.gov/bea/regional/spi/.

[4] Chan K. Fu A. Yu C. Haar wavelets for efficient similarity search for time-series: with and

without time warping. IEEE Transactions on Knowledge and Data Engineering, 25(3), 2003.686-705. [5] Ding Z J,Yu J. Overview of cluster analysis technique.In:Machine Learning and Its Application.

Wang J, Zhou Z H, Zhou A Y eds.Tsinghua University Press, Beijing, China,2006.59-80(In Chinese).

[6] Faloutsos C, Ranganathan M, Manolopoulos Y. Fast subsequence matching in time-series

databases. In: Proc. of ACM SIGMOD Conf. Minneapolis, 1994. 419-429.

- 10 -

[7] Gavrilov M, Anguelov D, Indyk P, et al.Mining the stock market: Which measure is best? In

Proc. of the Knowledge Discovery and Data Mining, 2000. 487-496.

[8] Li W, Keogh E, Xi X, Herle H, et al. Atomic Wedgie: Efficient Query Filtering for Streaming

Time Series. In the 4th IEEE Int’l Conf. on Data Mining (ICDM2005), Lousiana, New Orleans, 2005.490-497.

[9] Keogh E, Kasetty S. On the need for time series data mining benchmarks: a survey and empirical

demonstration. In the 8th ACM SIGKDD Int’l Conf. on Knowledge Discovery and Data Mining. Edmonton, Canada, 2002.102-111.

[10] Keogh E. Exact indexing of dynamic time warping. Proc. of 28th Int’l Conf. on Very Large

Data Bases (VLDB 2002).Hong Kong, China, 2002.406-417.

[11] Keogh E, Chakrabarti K.Pazzani M.Locally adaptive dimensionality reduction for indexing

large time series databases. In Proc. Of ACM SIGMOD Conference on Management of Data, 2001.151-162.

[12] Keogh E, Chakrabarti K, Pazzani M, Mehrotra S. Dimensionality Reduction for Fast Similarity

Search in Large Time Series Databases. In: 4th Pacific-Asia Conf.Knowledge and Data Mining (PAKDD 2000), Kyoto, Japan, 2000. 122-133.

[13] Keogh E, Palpanas T, Zordan V, Gunopulos D, et al.Indexing large human-motion databases.

In Proc. of 30th Int’l Conf. on Very Large Data Bases (VLDB2004), Toronto, Canada, 2004.780-791.

[14] Keogh E, Folias T. The UCR Time Series Data Mining Archive. Riverside CA.University of

California-Computer Science & Engineering Department, 2002. http://www.cs.ucr.edu/~eamonn/TSDMA/index.html.

[15] Mathsoft, Inc. SPlus-2000 guide to Statistics.

附中文参考文献:

[5] 丁泽进,于剑.聚类分析技术综述.In:机器学习及其应用.王珏,周志华,周傲英主编.北京:清华大学出版社, 2006.59-80.

Boundary Distance-Based Time Series Clustering

LI Jun-Kui, WANG Yuan-Zhen, LI Xin-Ping

(College of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan 430074, China)

Abstract

The key to cluster is to define the similarity or dissimilarity between objects. A boundary based distance measure between time series, D LB _HUST , is presented to represent the dissimilarity.D LB _HUST is

tighter lower bounding than existing boundary based time series distance measure D LB _Keogh ,moreover D LB _HUST is a symmetry distance measure, hence it is applicable to time

series clustering. A boundary based time series clustering method is proposed, which updates the boundary of the cluster each time a new time series is added into the cluster, the new boundary of the cluster is the outline of all the time series in the cluster. The thorough experiments show that the method outperformsEuclidean and DTW distance based time series clustering method, and is effective and practical.

Keywords ：Time Series, Clustering, Boundary, Symmetry distance

- 11 -

作者简介

李俊奎(1981－),男,江西景德镇人,博士研究生,主要研究领域为数据挖掘,机器学习;

王元珍(1945－),女,教授,博士生导师,主要研究领域为现代数据库理论与实现,数据挖掘;李新萍(1983－),女,硕士研究生,主要研究领域为数据挖掘。

- 12 -

与《基于边界距离的时间序列聚类》相关的范文

06-23 国土局十一五规划心得体会

基于对当前改革状况.未来国内外经济社会发展态势及其对体制要求的战略考虑,党的十六届五中全会强调,目前我国正处于改革的攻坚阶段,必须以更大决心加快推进改革,使关系经济社会发展全局的重大体制改革取得突破性进展.这表明,我国的体制机制改革,特别是经济体制改革正处在战略性攻坚的关键阶段.改革开放20多年来,特别是"十五"期间,我国经济体制改革的进程取得了显著进展.但也要看到,改革推进的 ...

08-29 药山自然保护区情况汇报(通用)

尊敬的主审专家，各位领导：　　为了药山自然保护区由省级晋升为国家级，您们不远万里，历尽颠簸前来考察。在此，请允许我代表巧家县四家班子及全县51.9万各族人民，对您们的到来表示最热忱的欢迎，对您们给予巧家的关心和厚爱表示最忠心的感谢！诚祝您们巧家之行顺心如意。下面，我就巧家药山自然保护区的情况作汇报，不妥之处，敬请批评指正。　　一、巧家县基本情况　　巧家县位于云南省东北部，昭通市西南面，与昆明 ...

12-15 创新联防联调机制构建和谐边关经验材料

创新联防联调机制构建鄂陕和谐边关　　xx乡地处鄂陕边关，秦巴腹地，与陕西省三县八乡相邻。x个行政村中有y个行政村与陕西接壤，省际边界线150余公里，地处边关，回汉杂居，地域差异和民族差别决定了xx乡特殊而复杂的治安环境，20XX年度全乡共发生民事纠纷48起，有27起属跨省际纠纷,治安案件11起，有6起属于跨省的，其范围涵盖婚姻家庭、山林土地权属、邻里关系等方方面面。由于跨省跨区域，纠纷难调解，案 ...

11-19 XX市城乡环境综合整治工作情况汇报材料

　　20XX年8月全省城乡环境综合整治工作会议在维坊市召开后，我市组织学习传达了会议精神，在工作中，严格贯彻落实关于整治工作“三个延伸”的要求，以整治鲁苏边界环境为重点，集中整治村镇环境，推动了全市城乡环境综合整治活动进一步深入开展。现将工作情况汇报如下：　　一、传达会议精神，制定整治方案，确定整治工作重点　　维坊会议后，我市召开了市长办公会，学习传达了赵省长、杨焕彩厅长的重要讲话精神，总结回 ...

08-03 安全助理先进事迹汇报材料:安全从基层抓起

安全助理先进事迹汇报材料：安全,从基层抓起安全行为观察、安全生产红旗班组、安全管理培训师……这在xx大区已是人人皆知的名词。 “人人都是安全员、月月都是安全月”，“明确职责，严查严整，做到发现一起，纠正一起，考核一起”……这已是xx大区每个员工树立的安全理念。安全工作从基层抓起，重视安全就是重视生命，一切为了用户的安全……xx大区已经奏响了“以人为本，关爱生命”的安全生产新序曲。这一切， ...

01-15 村级地质灾害应急预案

　　为有效防治我村地质灾害，避免和减轻地质灾害造成的损失，编制人民生命和财产安全，根据国务院《地质灾害防治条例》和南平市、武夷山市的部署，结合××村实际，制定本预案。　　一、工作机构和职责　　1、应急工作组：在乡镇政府防灾抢险指挥部的领导下，村成立应急工作组，组长由×××（村主任或村书记）担任，成员有×××…（村两委、各村民小组组长和国土资源协管员）。应急工作小组的职责是：向村民宣传地质灾害防 ...

06-30 四唯街第六次全国人口普查工作进展情况

四唯街第六次全国人口普查工作进展情况 l 根据《区人民政府关于切实做好全区第六次人口普查工作的通知》，我街于20XX年3月2日成立了，以高小健同志为组长的四唯街第六次人口普查领导小组。并于20XX年4月底，街辖七个社区的基层人口普查工作机构都已按要求全部组建成功。所有领导小组成员名单均已报送区统计局备案。 l 参照《江岸区人民政府第六次人口普查领导小组成员单位职责分工和工作方式》，我街专门组建了人 ...

08-25 CEO演讲稿(优秀演讲稿)

我们现在打出来的是云南红的故事,但是最早不是云南红,而是蒙牛,现在已经很有名了.过去跟我是好朋友,我几年前到蒙牛看,管理很好,厂房比大楼餐厅还要干净,厂子管理的非常好,厂里还有很好的企业文化,叫做有德有才,破格使用,无德无才,坚决不用,有才无德,培养使用,有才少德,兼职使用.我觉得很好,聪明留下你的智慧,天生勤劳留下你的汗水,什么都没有就请你离开.我说你公司一年销售3亿,那你想不想做30亿的公司,

02-24 新华乡:创新活动载体实践科学发展观

在深入学习实践科学发展观活动中，新华乡注重结合当前中心工作，把学习实践活动作为推动该乡经济社会又好又快发展的重要契机，不断创新学习载体，丰富学习内容，使学习实践活动入脑入心。该乡结合当地实际情况，创新载体，开展了内容丰富、形式多样的系列主题活动：以“四个一”（即打造一个区域性边界农副产品贸易中心乡镇，建设一条生态种养长廊，培养一支“两强”党员队伍，带动一批有文化、懂技术、会管理、能致富的新型农民 ...

12-19 全国矿业权实地核查总体实施方案

一、开展全国矿业权实地核查的意义近年来，我国矿业空前发展，有力地支撑了国民经济建设和社会发展。但是，在矿产资源勘查与开发过程中，存在着一些不容忽视的问题，其中部分矿业权证矿不一致的现象一个重要因素。为此，国土资源部先后发布了《关于开展全国矿产资源储量利用调查工作的通知》(国土资发[20xx]192号)和《关于开展全国矿业权实地核查工作的通知》(国土资发[20xx]59号)，启动了全国矿业权实地核 ...

随机推荐

猜你喜欢

基于边界距离的时间序列聚类

·七一致辞

·乡镇一村一品工作经验交流

·2011年小学校本培训工作计划

·英语常规检查总结

·[民间偏方]多年哮喘气管炎最佳治疗方

·描写云的优美诗句

·园林古宅能活下来,全靠苏州最古老帮派的洪荒之力!

·小动物过河

·桥架的安装和桥架内电缆敷设

·E型贴片微带天线性能分析

·档案室岗位职责

·2011年公安慰问信

·上学期幼儿大班评语

·质监局庆七一演讲稿

·安全生产演讲稿:140万里路的生命牵挂

·医学临床三基训练,医技分册,药剂学试卷及答案,第四版

·爱是一种欣赏[散文欣赏]

·自我意识探析

·[明]高启[梅花]阅读答案

·什么是成交量?