MTCNN 论文学习_mtcnn算法论文-程序员宅基地

技术标签: 深度学习  目标检测  人脸识别  

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Network

论文地址:https://arxiv.org/ftp/arxiv/papers/1604/1604.02878.pdf

Abstract

在无条件约束的环境下进行人脸检测和对齐是非常具挑战性的,因为你要考虑不同的姿势,光照,和遮挡。最近的研究显示,深度学习方法能在这两个任务上获得不错的效果。这篇论文提出了一个深度级联多任务框架,探索它们内在的关系,进而提升表现。此框架采取了一个级联架构,包含三个阶段的深度卷积网络由粗到细地来预测人脸和特征点位置。此外,在学习过程中,我们提出一个新的 online hard example mining 策略,可以自动提升表现,而不需人工选取样本。此方法在 人脸检测的 FDDB 和WIDER FACE benchmarks 上获得了 state of art 的成绩,在人脸对齐的 AFLW benchmark 上也表现不俗。

1. Introduction

人脸检测和对齐对于人脸应用至关重要,如人脸识别和表情分析。但是,面部在视觉呈现上的差异,如遮挡,姿势变化,和极端光照,给现实世界中的人脸应用带来了巨大的挑战。

Viola 与 Jones 提出了一个级联人脸检测器,它利用 Haar 特征和 AdaBoost 来训练一个级联分类器,获得了不错的表现。但是一些实验表明这个检测器在实际应用中效果会下降很多,当人脸的视觉变化很大时。另有一些论文介绍了 deformable part models (DPM) 用于人脸检测,表现优异。但是它们都需要很高的算力,而且在训练阶段需要很多的标注数据。Yang et al. 提出了用于人脸属性识别的深度卷积网络,以获取人脸区域的高响应,然后进一步产生人脸候选框。但是,由于 CNN 结构复杂,在实际应用中很费时。Li et al. 利用级联 CNNs 来识别人脸,但是需要候选框校准,这带来了额外的计算成本,而且忽略了人脸关键点位置和边框回归中的内在关联。

人脸对齐也受到了很大的关注。基于回归的模型与 template fitting approaches 是两个主要的方向。最近,Zhang et al. 提出利用人脸属性识别作为辅助,使用 CNN 来增强人脸对齐表现的方法。

但是,绝大多数的人脸检测和对齐方法都忽略了这两个任务之间的内在联系。尽管有些工作试图去共同解决这俩问题,但是效果有限。例如,Chen et al. 利用随机森林和像素值差异,来共同进行对齐和检测任务。但是,人为选取的特征限制了它的效果。Zhang et al. 使用多任务 CNN 来提升 multi-view 的人脸检测准确率,但是初始检测窗口是由一个弱人脸检测器产生,因而检测精度有限。

另一方面,训练过程中的 mining hard samples 对增强检测器的效果至关重要。但是传统的 hard sample mining 通常是 offline 的方式操作,这就需要更多的人为操作。所以,针对人脸检测和对齐设计一个 online hard sample mining 方法就变得非常迫切,它能自动地适应当前训练过程。

这篇论文中,我们提出了一个新的框架,利用级联 CNNs 整合检测和对齐的任务。它主要包含3个阶段。第一阶段,快速地通过一个较浅的 CNN 来产生候选窗口。然后,通过一个复杂点的 CNN 来优化候选窗口,剔除那些不包含人脸的窗口。最终,使用一个更复杂的 CNN 来优化结果,输出人脸关键点位置。该多任务学习框架能显著地提升了算法的表现。这篇论文的主要贡献如下:

  1. 提出了一个新的级联 CNNs 框架,共同进行人脸检测和对齐;
  2. 提出了一个高效的方法来进行 online hard sample mining 来提升表现;
  3. 在 benchmarks 上进行充分的实验,与目前 state of art 的方法进行比较。

2. Approach

A. Overall Framework

我们的方法流程如图1中所示。给定一张图片,我们首先将它的大小调整为不同的比例,产生图像金字塔,然后将该图像金字塔作为“3-阶段级联框架”的输入:

阶段一:我们使用了一个全卷积网络,叫 Proposal Network (P-Net),来获取候选框,以及它们的边框回归向量。然后用估计的边框回归向量来校准这些候选框。然后,用非最大抑制(non-maximum suppression, NMS)来合并高度重合的候选框。

阶段二:将所有的候选框输入进另一个 CNN,叫 Refine Network (R-Net),它进一步剔除那些假的候选框,对边框回归进行校准,然后用 NMS 来合并重合的候选框。

阶段三:它与阶段二类似,但是在这一步我们的目的是获得人脸更多的细节。尤其是,网络将输出人脸的关键点位置。

B. CNN Architecture

在论文“A convolutional neural network cascade for face detection” 中,作者设计了多个 CNNs 来进行人脸检测。但是,我们注意到,它的表现受以下几方面限制:(1)一些滤波器缺乏权值的多样性,这限制了它们去产生 discriminative 信息;(2)与其它多类别目标检测和分类任务相比,人脸检测是一个二元分类任务,所以它需要的滤波器数量就比较少,但是这些滤波器的判别能力要强。所以,作者就降低了滤波器的个数,将 5 × 5 5\times 5 5×5的滤波器改为 3 × 3 3\times 3 3×3的滤波器,降低计算量,增加网络深度,这样来提升性能。有了这些改善,我们就能获得更优的检测效果,运行时间更短。

C. Training

我们使用3个任务来训练我们的 CNN 检测器:有人脸/没人脸分类,边框回归,人脸关键点定位。

  • 人脸分类:学习目标就是一个两类别的分类任务。对每个样本 x i x_i xi,我们使用交叉熵损失函数:
    L i d e t = − ( y i d e t l o g ( p i ) ) + ( 1 − y i d e t ) ( 1 − l o g ( p i ) ) ( 1 ) L_i^{det} = -(y_i^{det} log(p_i)) + (1-y_i^{det})(1-log(p_i))\quad \quad \quad (1) Lidet=(yidetlog(pi))+(1yidet)(1log(pi))(1)

p i p_i pi是网络输出的,一个样本是否是人脸的概率。 y i d e ∈ { 0 , 1 } y_i^{de} \in \{0,1\} yide{ 0,1}表示 ground-truth 标签。

  • 边框回归:对每个候选框,我们预测它和最近的 ground truth 边框(ground truth 边框的左上角位置,高度和宽度)的偏移量。学习目标是一个回归问题,我们对每个样本 x i x_i xi使用欧式损失:
    L i b o x = ∣ ∣ y ^ i b o x − y i b o x ∣ ∣ 2 2 ( 2 ) L_i^{box} = ||\hat y_i^{box} - y_i^{box}||^2_2 \quad \quad \quad (2) Libox=y^iboxyibox22(2)

y ^ i b o x \hat y_i^{box} y^ibox 是从网络中获得的回归值,而 y i b o x y_i^{box} yibox 是ground truth 坐标。有4个坐标,包括左上角位置,高度和宽度,因此 y i b o x ∈ R 4 y_i^{box} \in \mathbb{R}^4 yiboxR4

  • 人脸关键点定位:与边框回归任务类似,人脸关键点检测也被看作一个回归问题,我们最小化欧式损失:
    L i l a n d m a r k = ∣ ∣ y ^ i l a n d m a r k − y i l a n d m a r k ∣ ∣ 2 2 ( 3 ) L_i^{landmark} = ||\hat y_i^{landmark} - y_i^{landmark}||^2_2\quad \quad \quad (3) Lilandmark=y^ilandmarkyilandmark22(3)

y ^ i l a n d m a r k \hat y_i^{landmark} y^ilandmark是人脸关键点的坐标,从网络中计算得来; y i l a n d m a r k y_i^{landmark} yilandmark 是 ground truth 坐标。有5个关键点,包括左眼,右眼,鼻子,左嘴角,和右嘴角,所以 y i l a n d m a r k ∈ R 1 0 y_i^{landmark}\in \mathbb{R}^10 yilandmarkR10

  • 多源训练:因为我们在每个 CNN 里要做不同的任务,就要有不同类别的训练图像,如人脸,没人脸,部分对齐的人脸。这样,前面的一些损失函数就没有使用。例如,对背景区域的样本,我们只计算 L i d e t L_i^{det} Lidet,其它两个损失函数都设为0。我们只需要一个样本类型表示器就可以做到。这样,整个学习目标如下:
    m i n ∑ i = 1 N ∑ j ∈ { d e t , b o x , l a n d m a r k } α j β i j L i j ( 4 ) min \sum_{i=1}^N \sum_{j\in \{det,box,landmark\}} \alpha_j \beta_i^j L_i^j \quad \quad \quad (4) mini=1Nj{ det,box,landmark}αjβijLij(4)

N N N是训练样本的个数, α j \alpha_j αj表示任务的重要程度。我们在 P-Net 和 R-Net 中使用 α d e t = 1 , α b o x = 0.5 , α l a n d m a r k = 0.5 \alpha_{det}=1, \alpha_{box}=0.5, \alpha_{landmark}=0.5 αdet=1,αbox=0.5,αlandmark=0.5,在 O-Net 中使用 α d e t = 1 , α b o x = 0.5 , α l a n d m a r k = 1 \alpha_{det}=1, \alpha_{box}=0.5, \alpha_{landmark}=1 αdet=1,αbox=0.5,αlandmark=1 来更精准地获取人脸关键点位置。 β i j ∈ { 0 , 1 } \beta_i^j \in \{0,1\} βij{ 0,1}是样本类型表示器。这样,我们很自然地就会去选择随机梯度下降法来训练 CNNs。

  • Online hard example mining:与传统方法的在分类器训练后进行 hard sample mining 不同,我们在人脸分类任务中就进行 online hard example mining,让它自动地适应训练过程。

在每个 mini-batch 中,我们对前向传播中得到的损失值进行排序,选择最高的 70 % 70\% 70% 作为 hard samples。然后在反向传播时,我们只计算 hard samples 中的梯度。意思就是,在训练过程中我们忽略容易掉样本,因为它们对提升检测器没有太多帮助。实验表明,这个训练策略能产生更好的表现,而不需要人为的样本选择。

3. Experiments

Pls read paper for more details.

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/calvinpaean/article/details/85048918

智能推荐

攻防世界_难度8_happy_puzzle_攻防世界困难模式攻略图文-程序员宅基地

文章浏览阅读645次。这个肯定是末尾的IDAT了,因为IDAT必须要满了才会开始一下个IDAT,这个明显就是末尾的IDAT了。,对应下面的create_head()代码。,对应下面的create_tail()代码。不要考虑爆破,我已经试了一下,太多情况了。题目来源:UNCTF。_攻防世界困难模式攻略图文

达梦数据库的导出(备份)、导入_达梦数据库导入导出-程序员宅基地

文章浏览阅读2.9k次,点赞3次,收藏10次。偶尔会用到,记录、分享。1. 数据库导出1.1 切换到dmdba用户su - dmdba1.2 进入达梦数据库安装路径的bin目录,执行导库操作  导出语句:./dexp cwy_init/[email protected]:5236 file=cwy_init.dmp log=cwy_init_exp.log 注释:   cwy_init/init_123..._达梦数据库导入导出

js引入kindeditor富文本编辑器的使用_kindeditor.js-程序员宅基地

文章浏览阅读1.9k次。1. 在官网上下载KindEditor文件,可以删掉不需要要到的jsp,asp,asp.net和php文件夹。接着把文件夹放到项目文件目录下。2. 修改html文件,在页面引入js文件:<script type="text/javascript" src="./kindeditor/kindeditor-all.js"></script><script type="text/javascript" src="./kindeditor/lang/zh-CN.js"_kindeditor.js

STM32学习过程记录11——基于STM32G431CBU6硬件SPI+DMA的高效WS2812B控制方法-程序员宅基地

文章浏览阅读2.3k次,点赞6次,收藏14次。SPI的详情简介不必赘述。假设我们通过SPI发送0xAA,我们的数据线就会变为10101010,通过修改不同的内容,即可修改SPI中0和1的持续时间。比如0xF0即为前半周期为高电平,后半周期为低电平的状态。在SPI的通信模式中,CPHA配置会影响该实验,下图展示了不同采样位置的SPI时序图[1]。CPOL = 0,CPHA = 1:CLK空闲状态 = 低电平,数据在下降沿采样,并在上升沿移出CPOL = 0,CPHA = 0:CLK空闲状态 = 低电平,数据在上升沿采样,并在下降沿移出。_stm32g431cbu6

计算机网络-数据链路层_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输-程序员宅基地

文章浏览阅读1.2k次,点赞2次,收藏8次。数据链路层习题自测问题1.数据链路(即逻辑链路)与链路(即物理链路)有何区别?“电路接通了”与”数据链路接通了”的区别何在?2.数据链路层中的链路控制包括哪些功能?试讨论数据链路层做成可靠的链路层有哪些优点和缺点。3.网络适配器的作用是什么?网络适配器工作在哪一层?4.数据链路层的三个基本问题(帧定界、透明传输和差错检测)为什么都必须加以解决?5.如果在数据链路层不进行帧定界,会发生什么问题?6.PPP协议的主要特点是什么?为什么PPP不使用帧的编号?PPP适用于什么情况?为什么PPP协议不_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输

软件测试工程师移民加拿大_无证移民,未受过软件工程师的教育(第1部分)-程序员宅基地

文章浏览阅读587次。软件测试工程师移民加拿大 无证移民,未受过软件工程师的教育(第1部分) (Undocumented Immigrant With No Education to Software Engineer(Part 1))Before I start, I want you to please bear with me on the way I write, I have very little gen...

随便推点

Thinkpad X250 secure boot failed 启动失败问题解决_安装完系统提示secureboot failure-程序员宅基地

文章浏览阅读304次。Thinkpad X250笔记本电脑,装的是FreeBSD,进入BIOS修改虚拟化配置(其后可能是误设置了安全开机),保存退出后系统无法启动,显示:secure boot failed ,把自己惊出一身冷汗,因为这台笔记本刚好还没开始做备份.....根据错误提示,到bios里面去找相关配置,在Security里面找到了Secure Boot选项,发现果然被设置为Enabled,将其修改为Disabled ,再开机,终于正常启动了。_安装完系统提示secureboot failure

C++如何做字符串分割(5种方法)_c++ 字符串分割-程序员宅基地

文章浏览阅读10w+次,点赞93次,收藏352次。1、用strtok函数进行字符串分割原型: char *strtok(char *str, const char *delim);功能:分解字符串为一组字符串。参数说明:str为要分解的字符串,delim为分隔符字符串。返回值:从str开头开始的一个个被分割的串。当没有被分割的串时则返回NULL。其它:strtok函数线程不安全,可以使用strtok_r替代。示例://借助strtok实现split#include <string.h>#include <stdio.h&_c++ 字符串分割

2013第四届蓝桥杯 C/C++本科A组 真题答案解析_2013年第四届c a组蓝桥杯省赛真题解答-程序员宅基地

文章浏览阅读2.3k次。1 .高斯日记 大数学家高斯有个好习惯:无论如何都要记日记。他的日记有个与众不同的地方,他从不注明年月日,而是用一个整数代替,比如:4210后来人们知道,那个整数就是日期,它表示那一天是高斯出生后的第几天。这或许也是个好习惯,它时时刻刻提醒着主人:日子又过去一天,还有多少时光可以用于浪费呢?高斯出生于:1777年4月30日。在高斯发现的一个重要定理的日记_2013年第四届c a组蓝桥杯省赛真题解答

基于供需算法优化的核极限学习机(KELM)分类算法-程序员宅基地

文章浏览阅读851次,点赞17次,收藏22次。摘要:本文利用供需算法对核极限学习机(KELM)进行优化,并用于分类。

metasploitable2渗透测试_metasploitable2怎么进入-程序员宅基地

文章浏览阅读1.1k次。一、系统弱密码登录1、在kali上执行命令行telnet 192.168.26.1292、Login和password都输入msfadmin3、登录成功,进入系统4、测试如下:二、MySQL弱密码登录:1、在kali上执行mysql –h 192.168.26.129 –u root2、登录成功,进入MySQL系统3、测试效果:三、PostgreSQL弱密码登录1、在Kali上执行psql -h 192.168.26.129 –U post..._metasploitable2怎么进入

Python学习之路:从入门到精通的指南_python人工智能开发从入门到精通pdf-程序员宅基地

文章浏览阅读257次。本文将为初学者提供Python学习的详细指南,从Python的历史、基础语法和数据类型到面向对象编程、模块和库的使用。通过本文,您将能够掌握Python编程的核心概念,为今后的编程学习和实践打下坚实基础。_python人工智能开发从入门到精通pdf

推荐文章

热门文章

相关标签