论文阅读:基于不确定性和密度的有源半监督学习方案,用于正无标记多元时间序列的分类

An uncertainty and density based active semi-supervised learning scheme for positive unlabeled multivariate time series classification

研究的问题

本文提出一种结合主动学习和半监督学习,仅用最少的人工标记来获得用以多元时间序列分类问题的一个置信且标记充分的数据集,用以更好的训练从而完成分类任务。

研究动机

传统的分类算法通常需要大量标记的训练数据来学习高质量的分类模型,然而实际上有标记的数据通常数量很少,且采用人工标记的成本相当大。训练样本的数量将直接决定模型的预测效果,因此充足数量的标记训练样本是至关重要的。多元时间序列问题的复杂性导致传统的半监督学习方法效率低下,因此本文提出的方法将在最大程度节省人力资源的同时更高效的对多元时间序列做出标记。

先进性与贡献

在最大程度节省人力标注的资源的同时得到一个置信且充分的标记训练集;提出基于不确定性和密度的采样策略,只需人工标记信息量最大的样本数据;提出一种有效的主动半监督学习框架,逐渐标注信息量最大的样本数据;提出了一种有效的无参数主动学习停止准则,以平衡整体框架的性能与成本。

具体方法

  1. 输入:一个包含少量正例样本P和大量未标记样本U的训练数据集
  2. 输出:充分标记的训练数据集D
  3. 首先找到一个置信的负例样本。
  4. 循环遍历,直到满足停止准则:
    • 计算U中每一个未标记多元时间序列的得分Score(S)(该得分基于局部密度和不确定性)
    • 根据得分Score从U中选择出信息量最大的样本Y,并对Y进行人工专家标注
    • 使用半监督学习方法,自动对Y的近邻进行分类
  5. 停止准则:新标记的数据不再提供更多信息以学习更好的分类器模型,即未标记数据中的剩余示例无法进一步提高分类器性能。判断依据是:得分曲线的连续斜率极差在允许范围内,则表示得分曲线达到稳定且主动学习过程应该结束。

优缺点及思考

本文提出的方法致力于解决多元时间序列分类中缺乏大量标记样本数据的问题,着重于用尽可能少的人力资源得到置信且标记充分的数据集,从而更好的学习分类模型。本文提出的抽样策略基于不确定性和局部密度,能够选择出未标记样本中最具有价值,即最值得人工标注的样本,这样做不仅大大节省人力成本,而且使训练数据更优。同时本文提出的停止准则将忽略剩余的那些标注价值并不高的样本,这也利于节省成本。

本文的研究基于样本数据中正负样本基本平衡的假设,即正负例数量大致相同,但实际上多元时间序列数据往往是不平衡的,因此本文的标注方法对传统的多元时间序列分类更有效,因为传统多元时间序列分类也是基于正负样本平衡的假设。因此更进一步的研究应着眼于不平衡样本下的训练数据的标记和分类。

2018.10.13