论文阅读:DP聚类算法

Clustering by fast search and find of density peaks

研究的问题

本文提出了一种新型的基于密度的聚类算法,思路新颖、方法巧妙,能够实现对任意形状分布的数据进行聚类。

研究动机

传统基于距离的聚类算法仅仅局限于球面分布的数据聚类,为了实现对非球面数据、甚至对任意分布形状的数据聚类,密度聚类算法应用而生。密度聚类的典型代表DBSCAN算法能完成上述任务,但必须设定一个密度阈值来去除低于此密度阈值的噪音点。阈值的选取非常关键,甚至决定了聚类的成败,这增大了聚类的难度。本文提出的方法解决了该问题。

先进性与贡献

  1. DP聚类核心思想:聚类簇中心被具有较低局部密度的邻居点包围,且与具有更高密度的任何点有相对较大的距离。这样我们仅需聚算两个量就能完成聚类:局部密度𝜌i和NN距离𝜹i
  2. 用一种简单的方式衡量样本得分:𝛄i = 𝜌i * 𝜹i, i ∈ Is(需要对𝜌i𝜹i归一化处理来消除数量级的干扰)

具体方法

  1. 计算样本集两两之间的距离,构成距离矩阵
  2. 确定截断距离dc:选取一个dc,使样本平均近邻数约为总样本数的1%~2%
  3. 计算局部密度𝜌i:可通过Cut-off kernel方法或者Gaussian kernel方法计算
  4. 计算NN距离𝜹i:样本i到任何比其局部密度𝜌i大的样本的距离的最小值
    • 𝜹i = min(dij), 𝜌j > 𝜌i
    • 𝜹i = max(dij), 𝜌i = max(𝜌)
  5. 做出决策图(局部密度-距离图)和得分排序图
  6. 决定聚类簇的个数,得到聚类中心
  7. 依次对剩余样本完成聚类

优缺点及思考

本文提出的方法不仅能胜任任意形状数据分布的聚类任务,可以很好地描述数据分布,而且思路新颖,方法巧妙,在算法复杂度上也比一般的K-means算法低。同时该算法只考虑点与点之间的距离,不需要将点映射到一个向量空间中。该算法将非聚类中心点的聚类过程分离成一个单独的过程,使得聚类中心的选择和非聚类点的归类分离开来,增大了聚类精度。

2018.11.1