分析2019Neurocomputing 1区论文Multivariate time series clustering based on common principal component analysis

论文来源：https://www.researchgate.net/publication/332536648_Multivariate_time_series_clustering_based_on_common_principal_component_analysis

论文作者：中国华侨大学 Hailin Li

论文代码：在实验部分只提到使用MATLAB2010，但尚未见公开

论文语言风格比较适合Chinese，共PDF20页，可一天读完，在此做下阅读分析和感悟。

一、论文总体框架

一共分为5个部分，

1、Introduction：介绍一元时序数据和多元时序数据的各自常用方法，分析DTW的困境，列举基于传统方法之上需要继续研究的3个问题，最后阐述本文所解决的问题以及算法思路。

2、Preliminaries：简要介绍PCA，涉及到协方差矩阵和奇异值分解。需要了解主成分分析法，作者提出的算法也是基于此。

3、 MTS clustering based on CPCA：本文的一个核心部分，可以分为这几个部分，第一是提出要融合DTW和PCA的特点（PCA关注变量之间的关系，DTW关注序列（MTS）的值）；第二是对问题的描述；第三是算法描述，画出框架图；第四是时间复杂度分析。

4、Experimental evaluation，作者分为了三个部分：数据库、算法结果对比展示和时间consumption对比

1. Introduction

第一段：研究背景、对象和价值。引出时序数据

时序数据在股票交易、经融市场、医疗和工程等领域随处可见，对于获取有价值的信息和知识来说是一个重要数据。时序数据根据变量的多少可以分为UTS和MTS。时序性时这种数据与其他数据的不同之处。在时序数据融合领域，最有价值的任务就是降维、相似性度量、分类、聚类分析、模式发掘和可视化。

第二段：介绍目前的研究现状，DTW的困境和原因。主要介绍一元时序数据

大部分的相关工作都集中在在一元时序数据的模式识别上，尤其是基于DTW的一元时序数据的聚类研究。DTW是衡量两个序列相似性的常用方法，但时间复杂度是一个制约因素，并且DTW很难和k-means方法融合到一起去。其中重要的一个原因就是计算每个类的中心序列。文献[10,13]提出了一种DBA方法，在某种程度上DBA可以计算时序的中心序列，但初始化和序列长度选取的不同都会为最后中心序列的形式带来不同的结果。而且每一次循环必须计算每一个序列和中心序列的DTW距离，这也将会消耗更多的时间。另外k-shape和k-ms方法也可以用于UTS，但他们不适用于MTS。

第三段：介绍多元时序数据，PCA的研究现状。

1、介绍PCA。PCA是一个普遍的方法，将MTS转换到一个新的坐标空间中，在新的坐标空间中进行相似度的测量。

2、介绍不同的人对PCA的改进研究

3、其他的降维方法及其对应的测度设计也被用于MTS中

第四段：总结时序聚类中需要研究的问题

1、DTW可以考虑形状以及值的不同，但计算耗费大量的时间，并且中心序列难以设计和计算

2、PCA及其相应的改进方法都忽略了原始值的比较

3、随着MTS长度和维度的增加。目前方法的有效性需要进一步改进。

第五段：阐述本文方法的motivation（4个方面）

(1) Due to the high dimensionality of MTS, the dimensionality reduction is proposed to validly integrate into the clustering process. Moreover, a good clustering results can be obtained in the lower reduced dimensions. （把降维整合到聚类中，低维得到的效果更好）

(2) When the length of MTS is very long and the volume of MTS dataset is very large, we hope to design a fast clustering method for MTS data whose computation speed is better than those methods based on DTW. （速度快）

(3) In the process of clustering analysis, the values and relationship among variables of MTS should be taken into consideration. （聚类中，考虑变量的值和关系）

(4) It is well known that K-Means is a simple and effective clustering method, of which the time complexity is linear to the number of MTS, and it is usually suitable for dynamic clustering and online clustering. The design of the proposed method is expected to reach the effects of K-Means（达到k-means的效果）

第六段：阐述本文的算法思想

1、本文的工作主要受k-means启发

2、算法主要包含两个阶段，构建投影空间和成员重新分配。

3、使用CPCA来构建投影空间，将原始的MTS投影到新的空间中，并进行回构，以计算误差。利用误差最小的原则进行成员重新分配。

4、实验效果好

第七段：章节安排

2. Preliminaries

分两部分，（以后在详细介绍吧，以后的以后了。。。）

1、介绍Common principal component analysis

2、介绍投影和回构，如何计算误差

二、总结

1、论文要解决的问题是序列的聚类问题，需要区别于一个整长序列的分割。算法的输入样本数据为：