Cost-Effective Active Learning from Diverse Labelers
研究的问题
本文提出了一种新的主动选择标准来评估实例-标签对的成本效益,实现了在保证所选实例能够有效改进分类模型的基础上最大化的降低标记成本。
研究动机
传统的主动学习中,仅仅通过一个标记者来对实例样本做标记,但这不满足实际应用需求。实际应用中往往采用多标记者的方式。但是不同标记者拥有不同的标记精度和成本,也就是说不同的标记者拥有各自擅长和不擅长的标记领域,我们应该尽可能让他们参与各自最擅长的领域。本文正是从这一角度着手,提出了这种最大成本效益的实用的多标记者参与的标记方法。
先进性与贡献
说选取的实例有利于改进分类模型;选取的标记者应用于各自擅长的领域;低成本。总体来说,实现了为每个实例自适应地选择最具成本效益的标记者。
具体方法
- 输入:规格较小的已标记实例样本集L,大量未标记样本集U,所有标记者对L的标记Y’
- 初始化:计算所有标记者的的Cost
- 循环:对于U中的每一个实例样本xj和A中的每一个标记者ai
- 计算xj的不确定性
- 计算ai对xj标记精确度的预测值
- 计算方案(xj,ai)的成本效益
- 选择最大成本效益的实例-标记者对(x*,a*)
- A*对x*做出标记y*
- 将最大成本效益的实例-标记者对(x*,a*)放入集合L,并将x*从U中除去
- 训练分类模型并在测试集上评估
- 返回步骤3,直到超出Cost预算或者达到了要求对精度
优缺点及思考
本文提出了一种对于多标记者参与的主动学习模型的改进方法,即让具有不同专业知识的标记者标记自己最擅长领域内的未标记样本实例,这样可以达到在满足精确度要求情况下最小的成本开销。
该方法的最大先进性在于专业领域划分,与“分工”思想一致,仅让每个标记者参与自己最擅长领域的标记工作。因为每个标记者每进行一次标记的cost固定,因此提前计算好每个标记者的cost可以加速整个过程的进度。
2018.10.22