论文阅读:多元时间序列的马式距离DTW算法

Learning a Mahalanobis Distance-Based Dynamic Time Warping Measure for Multivariate Time Series Classification

研究的问题

针对多元时间序列的分类和预测问题,这篇论文提出了一种基于马式距离的动态时间规整算法,具有很高的精度和鲁棒性。

研究动机

多变量时间序列(MTS)数据集存在于众多领域,是各种计算机视觉与模式识别应用的基础之一,对其的准确分类已经成为一个热门研究课题。此前的DTW算法多用于单一变量时间序列,因此本文提出一种基于马式距离的动态时间规整算法用于多元时间序列的分类和预测。

先进性与贡献

基于马式距离的度量学习充分考虑到多变量之间的联系,通过为变量分配权重以消除噪声和耦合的影响,以便于准确地测量局部距离。基于三元约束模型和LogDet散度的度量学习使精度和鲁棒性更高。运用下限测量(LBM)方法和Woodbury公式极大地降低了计算成本。

具体方法

  1. 首先根据训练集标签对训练样本进行排序。
  2. 使用LBM方法扩展训练样本得到更近距离的两个多元时间序列。
  3. 接着使用线性度量学习框架来学习马式距离函数,每次通过DTW算法计算动态构建的大量三元组,逐步优化马式距离函数中的M矩阵,以便于损失函数达到最小值。
  4. 应用LogDet散度作为正则项来解决损失函数的最小化问题,并应用Woodbury公式来优化计算过程。
  5. 再使用上述步骤得到的最优M矩阵,用K邻近算法(KNN)依次预测K值为1~10情况下的测试数据集,得到不同K值下的预测结果。
  6. 计算不同K值下的预测精确度,并对本算法性能进行评估。

优缺点及思考

本文所提出的分类和预测方法,需要用到样本数据量三次方规模的三元组,并且是动态构建三元组方案,其计算时间复杂度为O(Nd2mn)(其中N为三元组数量),这导致该方法的计算过程很耗时。该方法在样本变量数量较大的情况,将会有更好的实验效果。这是因为马式距离函数着重强调变量及多变量之间的联系,变量太少的情况下,马式距离度量学习方法将会失去优势。同时该方法不善于处理正常和异常数据混杂的情况,此时我们不能获得最优的M矩阵。

因为SVM+MDDTW方案仅要求相同样本具有相似的分布,这不同于KNN+MDDTW方案需要最小的马式距离,因此在大多数情况下SVM+MDDTW方案的性能更好。同时应该选取合适的学习速率参数α,α太大将使三元组对M矩阵的更新产生影响,使M矩阵更新过程不稳定,分类精度降低;太小又会使学习速率太缓慢且不充分,无法发挥马式距离的优势。

这篇论文提出一种新颖的针对多元时间序列分类和预测问题的方法,充分应用马式距离来测量MTS的局部距离,利用DTW找到最优路径来对齐MTS(在长度和相位上),实现来高精度和鲁棒性。对该问题的进一步研究应该着重在算法优化上,以得到更低的计算成本。

2018.9.23