Clustering with Domain-Specific Usefulness Scores
研究的问题
对数据集对聚类算法通常有好多种,但最终聚类结果的好坏取决于该领域专业人员的评价与认可。因此本文着力研究在给定数据集专业评分情况下的有用性聚类问题。
研究动机
好的聚类算法必须通过专业领域的认可,其聚类结果才是有意义的。目前的很多聚类方法都是基于实例级的,比如监督分类和半监督分类。很多时候,我们无法得到样本数据的准确标记,只能根据该领域内专家对样本点的评分来完成聚类任务。因此本文的研究重点是基于专家评分来完成有用性聚类任务。
先进性与贡献
本文提出了一种新的结合了领域知识的聚类方法,即我们对数据集做出聚类需要根据该领域内专家的有用性评分来完成。本文采用联合优化聚类解决方案,结合谱算法和HSIC方法综合考量聚类质量和有用性,这使得我们可以得到限制在高质量自然聚类和专家关心的子空间下的聚类结果。
具体方法
- 首先准备数据:
- n x d的数据集X(n个样本、d个属性),领域专家提供的n x 1评分矩阵s
- 最终聚类数k,数据集核函数kc,评分核函数ks,衡量质量与有用性的权重µ
- 随机初始化的映射矩阵W^(0)(d x q,用来降维),最大迭代次数T,收敛精度ε
- 计算评分s的核矩阵Ks,开始t = 0 : T的迭代,每次迭代中:
- 让W=W^(t),优化聚类分配矩阵U;用W^(t)和U^(t)计算本次目标函数F^(t)
- 让U=U^(t),优化映射矩阵W;用W^(t+1)计算下一次目标函数F^(t+1)
- 计算收敛度r(t)=| F^(t+1)- F^(t)| / | F^ t |
- 判断是否收敛:当 || W ^ (t+1) – W^ t ||_F < ε and r^(t) < ε 时,结束迭代;否则继续迭代
- 得到最优映射矩阵Wopt = W^(t),并计算子空间XWopt的核矩阵K
- 根据核矩阵K,用谱聚类算法得到k个类别的聚类结果以及样本的标记Y
优缺点及思考
本文提出的基于域相关分数的有用性聚类框架,能够满足不同领域的特殊聚类需求。通过综合考量聚类质量与有用性,得到该领域专家关心的聚类结果。该方法没有直接使用原始数据集,而是通过梯度下降得到一个最优的映射矩阵,通过降维处理得到的新矩阵来完成分类任务,这使得我们在忽略一些相关性不大的属性的同时,最大化地利用了我们最关心的属性。通过与其他聚类算法做比较,该方法的聚类结果最令相关领域专家满意。
通过任意随机初始化得到的初始正交映射矩阵W,通常会得到局部最小值。为了避免局部最小、达到全剧最优,我们不得不多次初始化W,并进行多次实验,最终选取最小的W作为我们的最佳正交映射矩阵。在优化聚类分配矩阵时,需要分解拉普拉斯矩阵,这将带来巨大的时间复杂度,我们可以对该方法做进一步改进,例如使用组合多重网格求解器来优化时间复杂度。该方法的进一步研究可着力于如何有效得出全局最优解。
2018.10.1