使用弱监督补充局部信息的自底向上的细粒度图像分类模型
摘要
给定由图像和相应的类别标签组成的训练集,深度卷积神经网络在挖掘用于图像分类的判别部分方面表现出强大的能力。然而使用图像级标签训练的深度卷积神经网络仅倾向于关注最具辨别力的部分,忽视了可提供补充信息的其他部分。
在本文中,我们从不同的角度处理这个问题。我们以弱监督的方式构建互补局部模型,以得到被卷及网络关注的显著部分所抑制的信息。仅给定图像级标签,我们首先通过使用Mask R-CNN和基于CRF的分割执行弱监督对象检测和实例分割来提取粗略对象实例。然后我们在保持尽可能多样化的原则下估计并搜索每个对象实例的最佳局部模型。在最后阶段,我们构建了一个双向长短期记忆(LSTM)网络,融合主要特征和互补部分的信息编码为图像分类的综合特征。实验结果表明,该方法不仅比我们的基线模型有了显着的改进,而且在Stanford Dogs 120,Caltech-UCSD Birds 2011-200和Caltech 256上也大大超过了最先进的算法(分别为6.7%,2.8%,5.2%)。
一、介绍
深度神经网络已经证明了其学习图像分类的代表性特征的能力[34,25,37,41,17]。给定训练数据,图像分类[9,25]经常构建特征提取器,其接受输入图像和随后的分类器,其产生图像的预测概率。 这是许多高级视觉任务中的常见管道,例如物体检测[10,14,16],跟踪[43,43,38]和场景理解…[略]
物体检测阶段
- 如何在没有groundtruth标注的情况下驱动目标检测器
- 如何利用目标检测结果提高图像分类的性能
先训练分类网络,从分类模型中得到类激活映射(class activation map, CAM),将CAM输入条件随机场(conditional random field, CRF)得到无监督的实例分割标注。使用标注训练Mask RCNN模型,输出结果作为像素概率图替换CRF输出的标注,再次训练Mask RCNN,如此往复几轮。
图片分类阶段
在目标检测阶段直接输出分类结果会导致网络表现差,因为除了类标签之外,目标检测算法还需要花费很多精力来确定位置。为了在目标检测器的帮助下挖掘目标的显著部分,我们利用在先前目标检测阶段生成的候选区域,并建立一个补充局部信息的模型,它覆盖尽可能多能补充目标信息的候选区域子集。最后,我们利用双向长短期记忆网络对对象部分的深度特征进行编码,以进行最终图像分类。[略]
二、相关工作
弱监督目标检测和分割
基于局部的细粒度图像分类
使用LSTM进行上下文编码
三、弱监督局部信息补充模型
[略]