CVPR目标检测:少见的知识蒸馏用于目标检测(附论文下载)-程序员宅基地

技术标签: python  机器学习  计算机视觉  深度学习  人工智能  

欢迎关注“

计算机视觉研究院

547d6ee969bb73547719be13964badad.gif

计算机视觉研究院专栏

作者:Edison_G

近年来,知识蒸馏已被证明是对模型压缩的一种有效的解决方案。这种方法可以使轻量级的学生模型获得从繁琐的教师模型中提取的知识。

89048059a6add6030082b26ff1569726.png

长按扫描二维码关注我们

回复“GID”获取论文

1、简介

然而,以往的蒸馏检测方法对不同的检测框架具有较弱的泛化性,并且严重依赖于GT,忽略了实例之间有价值的关系信息。因此,研究者提出了一种新的基于鉴别实例的检测方法,而不考虑GT的正负区别,称为通用的实例蒸馏(GID)。

新提出的方法包含了一个通用的实例选择模块(GISM),以充分利用基于特征、基于关系和基于响应的知识进行蒸馏。大量的结果表明,学生模型在各种检测框架中取得了显著的AP改进,甚至优于教师。具体来说,ResNet-50的RetinaNet在COCO数据集上使用GID在mAP中达到39.1%,超过基线36.2%,甚至优于基于ResNet-101的38.1%AP教师模型。

d46c219981b24bf3fd28d127b05c93e2.png

2、背景及动机

由Hinton等人【Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network, 2015】提出的知识蒸馏(KD)是解决上述问题的一种很有前途的方法。知识蒸馏是将大模型的知识传递给小模型,从而提高小模型的性能,达到模型压缩的目的。目前,知识的典型形式可分为三类:反应型知识、特征型知识和关系型知识。然而,大多数蒸馏方法主要是针对多分类问题而设计的。 

直接将分类特定蒸馏方法迁移到检测模型中的效果较差,因为检测任务中正实例和负实例的比例极不平衡。 

一些为检测任务设计的蒸馏框架处理了这个问题,并取得了令人印象深刻的结果,例如。Li【Quanquan Li, Shengying Jin, and Junjie Yan. Mimicking very efficient network for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017】通过提取RPN和Wang等人【Tao Wang, Li Yuan, Xiaopeng Zhang, and Jiashi Feng. Distilling object detectors with fine-grained feature imitation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019】抽样一定比例的正负实例来解决这个问题。进一步提出只提取近GT区。然而,蒸馏的正负实例之间的比率需要精心设计,而仅蒸馏与GT相关的区域可能会忽略背景中潜在的信息区域。此外,目前的检测蒸馏方法不能同时在多个检测框架中工作:如two-stage, anchor-free。因此,研究者希望设计一种通用的蒸馏方法,用于各种检测框架,以有效地使用尽可能多的知识,而不涉及正或负。

3、新框架优势

fa37ff274f560266c39a8e166dd793fe.png

通过上图可以知道,新框架有如下优势:

(i)可以对一个图像中实例之间的关系知识进行建模,以便进行蒸馏。Hu【Han Hu, Jiayuan Gu, Zheng Zhang, Jifeng Dai, and Yichen Wei. Relation networks for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018】演示了关系信息对检测任务的有效性。然而,基于关系的知识蒸馏在目标检测中还没有被探索。 

(ii)避免手动设置正、负区域的比例,或只选择与GT有关的区域进行蒸馏。虽然GT相关的领域几乎是信息丰富的,但极其困难和简单的实例可能是无用的,甚至来自背景的一些信息块也可以帮助学生学习教师的泛化。此外,研究者还发现,自动选择学生和教师之间的一些判别实例进行蒸馏,可以使知识传递更加有效。这些判别实例被称为一般实例(GIS),因为新方法不关心正实例和负实例之间的比例,也不依赖于GT标签。

(iii)新方法对各种检测框架具有强大的泛化能力。基于学生和教师模型的输出计算GIS,而不依赖于特定检测器的某些模块或特定检测框架的某些关键特性,如anchor。

4、General Instance Distillation

先前的工作【Tao Wang, Li Yuan, Xiaopeng Zhang, and Jiashi Feng. Distilling object detectors with fine-grained feature imitation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019】提出,目标附近的特征区域有相当多的信息,这对于知识蒸馏是有用的。然而,研究者发现,不仅目标附近的特征区域,而且即使是来自背景区域的判别块也有意义的知识。基于这一发现,设计了通用实例选择模块(GISM),如下图所示。

08df45c3fd1732b9974989f98ae8dc66.png

该模块利用教师和学生模型的预测来选择蒸馏的关键实例。此外,为了更好地利用教师提供的信息,提取并利用基于特征、基于关系和基于响应的知识进行蒸馏,如下图所示。实验结果表明,新的蒸馏框架对于目前最先进的检测模型是通用的。

ecca1fed364c4ae7a197404ead6d7bc8.png

5、实验

为了验证该方法的有效性和鲁棒性,在不同的检测框架和异构主架构上进行了实验,并在COCO和Pascal VOC数据集的少数类检测上进行了实验。具体来说,在【Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, and R. Garnett, editors, Advances in Neural Information Processing Systems 28, pages 91–99. Curran Associates, Inc., 2015】中的设置之后,对于PascalVOC数据集,选择在VOC2007中分割的5k训练图像和在VOC2012中分割的16k训练图像进行训练,在VOC2007中分割的5k测试图像进行测试。对于COCO,选择默认的120k训练图像分割进行训练,5k Val图像分割进行测试。所有蒸馏性能均以AP进行评价。

0bb963964fafa0458b1151ca553db428.png

42c39a49aa09e60019afeb0d09d6f1c2.png

5aaae462af86e7760d9acc7b861319a5.png

acb90ced78176619529bd0d56225ce06.png

绿色、红色、黄色和青色框分别表示GT、正、半正和负实例。为了进一步分析了每种类型的一般实例的贡献,并验证了GISM的有效性,对每种类型的一般实例进行了实验。引入了一个名为intersection over proposals (IoP),以帮助分离这些GI:

8d33c8dfb473fff4c14afe0c24508386.png

GI的每个类型定义如下:

ac2a1d8cf310e07b002b29a3128ead72.png

1ddfba013d6aa6bd02c18b1f432e4493.png

 THE END

我们开创“计算机视觉协会”知识星球一年有余,也得到很多同学的认可,我们定时会推送实践型内容与大家分享,在星球里的同学可以随时提问,随时提需求,我们都会及时给予回复及给出对应的答复。

49eae1abe29d180427c450612c361e60.png

如果想加入我们“计算机视觉研究院”,请扫二维码加入我们。我们会按照你的需求将你拉入对应的学习群!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

1ee95f8dea5298685d073b6f96d58746.png

计算机视觉研究院

长按扫描二维码关注我们

回复“GID”获取论文

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/gzq0723/article/details/122659828

智能推荐

从零开始搭建Hadoop_创建一个hadoop项目-程序员宅基地

文章浏览阅读331次。第一部分:准备工作1 安装虚拟机2 安装centos73 安装JDK以上三步是准备工作,至此已经完成一台已安装JDK的主机第二部分:准备3台虚拟机以下所有工作最好都在root权限下操作1 克隆上面已经有一台虚拟机了,现在对master进行克隆,克隆出另外2台子机;1.1 进行克隆21.2 下一步1.3 下一步1.4 下一步1.5 根据子机需要,命名和安装路径1.6 ..._创建一个hadoop项目

心脏滴血漏洞HeartBleed CVE-2014-0160深入代码层面的分析_heartbleed代码分析-程序员宅基地

文章浏览阅读1.7k次。心脏滴血漏洞HeartBleed CVE-2014-0160 是由heartbeat功能引入的,本文从深入码层面的分析该漏洞产生的原因_heartbleed代码分析

java读取ofd文档内容_ofd电子文档内容分析工具(分析文档、签章和证书)-程序员宅基地

文章浏览阅读1.4k次。前言ofd是国家文档标准,其对标的文档格式是pdf。ofd文档是容器格式文件,ofd其实就是压缩包。将ofd文件后缀改为.zip,解压后可看到文件包含的内容。ofd文件分析工具下载:点我下载。ofd文件解压后,可以看到如下内容: 对于xml文件,可以用文本工具查看。但是对于印章文件(Seal.esl)、签名文件(SignedValue.dat)就无法查看其内容了。本人开发一款ofd内容查看器,..._signedvalue.dat

基于FPGA的数据采集系统(一)_基于fpga的信息采集-程序员宅基地

文章浏览阅读1.8w次,点赞29次,收藏313次。整体系统设计本设计主要是对ADC和DAC的使用,主要实现功能流程为:首先通过串口向FPGA发送控制信号,控制DAC芯片tlv5618进行DA装换,转换的数据存在ROM中,转换开始时读取ROM中数据进行读取转换。其次用按键控制adc128s052进行模数转换100次,模数转换数据存储到FIFO中,再从FIFO中读取数据通过串口输出显示在pc上。其整体系统框图如下:图1:FPGA数据采集系统框图从图中可以看出,该系统主要包括9个模块:串口接收模块、按键消抖模块、按键控制模块、ROM模块、D.._基于fpga的信息采集

微服务 spring cloud zuul com.netflix.zuul.exception.ZuulException GENERAL-程序员宅基地

文章浏览阅读2.5w次。1.背景错误信息:-- [http-nio-9904-exec-5] o.s.c.n.z.filters.post.SendErrorFilter : Error during filteringcom.netflix.zuul.exception.ZuulException: Forwarding error at org.springframework.cloud..._com.netflix.zuul.exception.zuulexception

邻接矩阵-建立图-程序员宅基地

文章浏览阅读358次。1.介绍图的相关概念  图是由顶点的有穷非空集和一个描述顶点之间关系-边(或者弧)的集合组成。通常,图中的数据元素被称为顶点,顶点间的关系用边表示,图通常用字母G表示,图的顶点通常用字母V表示,所以图可以定义为:  G=(V,E)其中,V(G)是图中顶点的有穷非空集合,E(G)是V(G)中顶点的边的有穷集合1.1 无向图:图中任意两个顶点构成的边是没有方向的1.2 有向图:图中..._给定一个邻接矩阵未必能够造出一个图

随便推点

MDT2012部署系列之11 WDS安装与配置-程序员宅基地

文章浏览阅读321次。(十二)、WDS服务器安装通过前面的测试我们会发现,每次安装的时候需要加域光盘映像,这是一个比较麻烦的事情,试想一个上万个的公司,你天天带着一个光盘与光驱去给别人装系统,这将是一个多么痛苦的事情啊,有什么方法可以解决这个问题了?答案是肯定的,下面我们就来简单说一下。WDS服务器,它是Windows自带的一个免费的基于系统本身角色的一个功能,它主要提供一种简单、安全的通过网络快速、远程将Window..._doc server2012上通过wds+mdt无人值守部署win11系统.doc

python--xlrd/xlwt/xlutils_xlutils模块可以读xlsx吗-程序员宅基地

文章浏览阅读219次。python–xlrd/xlwt/xlutilsxlrd只能读取,不能改,支持 xlsx和xls 格式xlwt只能改,不能读xlwt只能保存为.xls格式xlutils能将xlrd.Book转为xlwt.Workbook,从而得以在现有xls的基础上修改数据,并创建一个新的xls,实现修改xlrd打开文件import xlrdexcel=xlrd.open_workbook('E:/test.xlsx') 返回值为xlrd.book.Book对象,不能修改获取sheett_xlutils模块可以读xlsx吗

关于新版本selenium定位元素报错:‘WebDriver‘ object has no attribute ‘find_element_by_id‘等问题_unresolved attribute reference 'find_element_by_id-程序员宅基地

文章浏览阅读8.2w次,点赞267次,收藏656次。运行Selenium出现'WebDriver' object has no attribute 'find_element_by_id'或AttributeError: 'WebDriver' object has no attribute 'find_element_by_xpath'等定位元素代码错误,是因为selenium更新到了新的版本,以前的一些语法经过改动。..............._unresolved attribute reference 'find_element_by_id' for class 'webdriver

DOM对象转换成jQuery对象转换与子页面获取父页面DOM对象-程序员宅基地

文章浏览阅读198次。一:模态窗口//父页面JSwindow.showModalDialog(ifrmehref, window, 'dialogWidth:550px;dialogHeight:150px;help:no;resizable:no;status:no');//子页面获取父页面DOM对象//window.showModalDialog的DOM对象var v=parentWin..._jquery获取父window下的dom对象

什么是算法?-程序员宅基地

文章浏览阅读1.7w次,点赞15次,收藏129次。算法(algorithm)是解决一系列问题的清晰指令,也就是,能对一定规范的输入,在有限的时间内获得所要求的输出。 简单来说,算法就是解决一个问题的具体方法和步骤。算法是程序的灵 魂。二、算法的特征1.可行性 算法中执行的任何计算步骤都可以分解为基本可执行的操作步,即每个计算步都可以在有限时间里完成(也称之为有效性) 算法的每一步都要有确切的意义,不能有二义性。例如“增加x的值”,并没有说增加多少,计算机就无法执行明确的运算。 _算法

【网络安全】网络安全的标准和规范_网络安全标准规范-程序员宅基地

文章浏览阅读1.5k次,点赞18次,收藏26次。网络安全的标准和规范是网络安全领域的重要组成部分。它们为网络安全提供了技术依据,规定了网络安全的技术要求和操作方式,帮助我们构建安全的网络环境。下面,我们将详细介绍一些主要的网络安全标准和规范,以及它们在实际操作中的应用。_网络安全标准规范

推荐文章

热门文章

相关标签