论文地址:https://arxiv.org/ftp/arxiv/papers/1604/1604.02878.pdf
在无条件约束的环境下进行人脸检测和对齐是非常具挑战性的,因为你要考虑不同的姿势,光照,和遮挡。最近的研究显示,深度学习方法能在这两个任务上获得不错的效果。这篇论文提出了一个深度级联多任务框架,探索它们内在的关系,进而提升表现。此框架采取了一个级联架构,包含三个阶段的深度卷积网络由粗到细地来预测人脸和特征点位置。此外,在学习过程中,我们提出一个新的 online hard example mining 策略,可以自动提升表现,而不需人工选取样本。此方法在 人脸检测的 FDDB 和WIDER FACE benchmarks 上获得了 state of art 的成绩,在人脸对齐的 AFLW benchmark 上也表现不俗。
人脸检测和对齐对于人脸应用至关重要,如人脸识别和表情分析。但是,面部在视觉呈现上的差异,如遮挡,姿势变化,和极端光照,给现实世界中的人脸应用带来了巨大的挑战。
Viola 与 Jones 提出了一个级联人脸检测器,它利用 Haar 特征和 AdaBoost 来训练一个级联分类器,获得了不错的表现。但是一些实验表明这个检测器在实际应用中效果会下降很多,当人脸的视觉变化很大时。另有一些论文介绍了 deformable part models (DPM) 用于人脸检测,表现优异。但是它们都需要很高的算力,而且在训练阶段需要很多的标注数据。Yang et al. 提出了用于人脸属性识别的深度卷积网络,以获取人脸区域的高响应,然后进一步产生人脸候选框。但是,由于 CNN 结构复杂,在实际应用中很费时。Li et al. 利用级联 CNNs 来识别人脸,但是需要候选框校准,这带来了额外的计算成本,而且忽略了人脸关键点位置和边框回归中的内在关联。
人脸对齐也受到了很大的关注。基于回归的模型与 template fitting approaches 是两个主要的方向。最近,Zhang et al. 提出利用人脸属性识别作为辅助,使用 CNN 来增强人脸对齐表现的方法。
但是,绝大多数的人脸检测和对齐方法都忽略了这两个任务之间的内在联系。尽管有些工作试图去共同解决这俩问题,但是效果有限。例如,Chen et al. 利用随机森林和像素值差异,来共同进行对齐和检测任务。但是,人为选取的特征限制了它的效果。Zhang et al. 使用多任务 CNN 来提升 multi-view 的人脸检测准确率,但是初始检测窗口是由一个弱人脸检测器产生,因而检测精度有限。
另一方面,训练过程中的 mining hard samples 对增强检测器的效果至关重要。但是传统的 hard sample mining 通常是 offline 的方式操作,这就需要更多的人为操作。所以,针对人脸检测和对齐设计一个 online hard sample mining 方法就变得非常迫切,它能自动地适应当前训练过程。
这篇论文中,我们提出了一个新的框架,利用级联 CNNs 整合检测和对齐的任务。它主要包含3个阶段。第一阶段,快速地通过一个较浅的 CNN 来产生候选窗口。然后,通过一个复杂点的 CNN 来优化候选窗口,剔除那些不包含人脸的窗口。最终,使用一个更复杂的 CNN 来优化结果,输出人脸关键点位置。该多任务学习框架能显著地提升了算法的表现。这篇论文的主要贡献如下:
我们的方法流程如图1中所示。给定一张图片,我们首先将它的大小调整为不同的比例,产生图像金字塔,然后将该图像金字塔作为“3-阶段级联框架”的输入:
阶段一:我们使用了一个全卷积网络,叫 Proposal Network (P-Net),来获取候选框,以及它们的边框回归向量。然后用估计的边框回归向量来校准这些候选框。然后,用非最大抑制(non-maximum suppression, NMS)来合并高度重合的候选框。
阶段二:将所有的候选框输入进另一个 CNN,叫 Refine Network (R-Net),它进一步剔除那些假的候选框,对边框回归进行校准,然后用 NMS 来合并重合的候选框。
阶段三:它与阶段二类似,但是在这一步我们的目的是获得人脸更多的细节。尤其是,网络将输出人脸的关键点位置。
在论文“A convolutional neural network cascade for face detection” 中,作者设计了多个 CNNs 来进行人脸检测。但是,我们注意到,它的表现受以下几方面限制:(1)一些滤波器缺乏权值的多样性,这限制了它们去产生 discriminative 信息;(2)与其它多类别目标检测和分类任务相比,人脸检测是一个二元分类任务,所以它需要的滤波器数量就比较少,但是这些滤波器的判别能力要强。所以,作者就降低了滤波器的个数,将 5 × 5 5\times 5 5×5的滤波器改为 3 × 3 3\times 3 3×3的滤波器,降低计算量,增加网络深度,这样来提升性能。有了这些改善,我们就能获得更优的检测效果,运行时间更短。
我们使用3个任务来训练我们的 CNN 检测器:有人脸/没人脸分类,边框回归,人脸关键点定位。
p i p_i pi是网络输出的,一个样本是否是人脸的概率。 y i d e ∈ { 0 , 1 } y_i^{de} \in \{0,1\} yide∈{ 0,1}表示 ground-truth 标签。
y ^ i b o x \hat y_i^{box} y^ibox 是从网络中获得的回归值,而 y i b o x y_i^{box} yibox 是ground truth 坐标。有4个坐标,包括左上角位置,高度和宽度,因此 y i b o x ∈ R 4 y_i^{box} \in \mathbb{R}^4 yibox∈R4。
y ^ i l a n d m a r k \hat y_i^{landmark} y^ilandmark是人脸关键点的坐标,从网络中计算得来; y i l a n d m a r k y_i^{landmark} yilandmark 是 ground truth 坐标。有5个关键点,包括左眼,右眼,鼻子,左嘴角,和右嘴角,所以 y i l a n d m a r k ∈ R 1 0 y_i^{landmark}\in \mathbb{R}^10 yilandmark∈R10。
N N N是训练样本的个数, α j \alpha_j αj表示任务的重要程度。我们在 P-Net 和 R-Net 中使用 α d e t = 1 , α b o x = 0.5 , α l a n d m a r k = 0.5 \alpha_{det}=1, \alpha_{box}=0.5, \alpha_{landmark}=0.5 αdet=1,αbox=0.5,αlandmark=0.5,在 O-Net 中使用 α d e t = 1 , α b o x = 0.5 , α l a n d m a r k = 1 \alpha_{det}=1, \alpha_{box}=0.5, \alpha_{landmark}=1 αdet=1,αbox=0.5,αlandmark=1 来更精准地获取人脸关键点位置。 β i j ∈ { 0 , 1 } \beta_i^j \in \{0,1\} βij∈{ 0,1}是样本类型表示器。这样,我们很自然地就会去选择随机梯度下降法来训练 CNNs。
在每个 mini-batch 中,我们对前向传播中得到的损失值进行排序,选择最高的 70 % 70\% 70% 作为 hard samples。然后在反向传播时,我们只计算 hard samples 中的梯度。意思就是,在训练过程中我们忽略容易掉样本,因为它们对提升检测器没有太多帮助。实验表明,这个训练策略能产生更好的表现,而不需要人为的样本选择。
Pls read paper for more details.
文章浏览阅读645次。这个肯定是末尾的IDAT了,因为IDAT必须要满了才会开始一下个IDAT,这个明显就是末尾的IDAT了。,对应下面的create_head()代码。,对应下面的create_tail()代码。不要考虑爆破,我已经试了一下,太多情况了。题目来源:UNCTF。_攻防世界困难模式攻略图文
文章浏览阅读2.9k次,点赞3次,收藏10次。偶尔会用到,记录、分享。1. 数据库导出1.1 切换到dmdba用户su - dmdba1.2 进入达梦数据库安装路径的bin目录,执行导库操作 导出语句:./dexp cwy_init/[email protected]:5236 file=cwy_init.dmp log=cwy_init_exp.log 注释: cwy_init/init_123..._达梦数据库导入导出
文章浏览阅读1.9k次。1. 在官网上下载KindEditor文件,可以删掉不需要要到的jsp,asp,asp.net和php文件夹。接着把文件夹放到项目文件目录下。2. 修改html文件,在页面引入js文件:<script type="text/javascript" src="./kindeditor/kindeditor-all.js"></script><script type="text/javascript" src="./kindeditor/lang/zh-CN.js"_kindeditor.js
文章浏览阅读2.3k次,点赞6次,收藏14次。SPI的详情简介不必赘述。假设我们通过SPI发送0xAA,我们的数据线就会变为10101010,通过修改不同的内容,即可修改SPI中0和1的持续时间。比如0xF0即为前半周期为高电平,后半周期为低电平的状态。在SPI的通信模式中,CPHA配置会影响该实验,下图展示了不同采样位置的SPI时序图[1]。CPOL = 0,CPHA = 1:CLK空闲状态 = 低电平,数据在下降沿采样,并在上升沿移出CPOL = 0,CPHA = 0:CLK空闲状态 = 低电平,数据在上升沿采样,并在下降沿移出。_stm32g431cbu6
文章浏览阅读1.2k次,点赞2次,收藏8次。数据链路层习题自测问题1.数据链路(即逻辑链路)与链路(即物理链路)有何区别?“电路接通了”与”数据链路接通了”的区别何在?2.数据链路层中的链路控制包括哪些功能?试讨论数据链路层做成可靠的链路层有哪些优点和缺点。3.网络适配器的作用是什么?网络适配器工作在哪一层?4.数据链路层的三个基本问题(帧定界、透明传输和差错检测)为什么都必须加以解决?5.如果在数据链路层不进行帧定界,会发生什么问题?6.PPP协议的主要特点是什么?为什么PPP不使用帧的编号?PPP适用于什么情况?为什么PPP协议不_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输
文章浏览阅读587次。软件测试工程师移民加拿大 无证移民,未受过软件工程师的教育(第1部分) (Undocumented Immigrant With No Education to Software Engineer(Part 1))Before I start, I want you to please bear with me on the way I write, I have very little gen...
文章浏览阅读304次。Thinkpad X250笔记本电脑,装的是FreeBSD,进入BIOS修改虚拟化配置(其后可能是误设置了安全开机),保存退出后系统无法启动,显示:secure boot failed ,把自己惊出一身冷汗,因为这台笔记本刚好还没开始做备份.....根据错误提示,到bios里面去找相关配置,在Security里面找到了Secure Boot选项,发现果然被设置为Enabled,将其修改为Disabled ,再开机,终于正常启动了。_安装完系统提示secureboot failure
文章浏览阅读10w+次,点赞93次,收藏352次。1、用strtok函数进行字符串分割原型: char *strtok(char *str, const char *delim);功能:分解字符串为一组字符串。参数说明:str为要分解的字符串,delim为分隔符字符串。返回值:从str开头开始的一个个被分割的串。当没有被分割的串时则返回NULL。其它:strtok函数线程不安全,可以使用strtok_r替代。示例://借助strtok实现split#include <string.h>#include <stdio.h&_c++ 字符串分割
文章浏览阅读2.3k次。1 .高斯日记 大数学家高斯有个好习惯:无论如何都要记日记。他的日记有个与众不同的地方,他从不注明年月日,而是用一个整数代替,比如:4210后来人们知道,那个整数就是日期,它表示那一天是高斯出生后的第几天。这或许也是个好习惯,它时时刻刻提醒着主人:日子又过去一天,还有多少时光可以用于浪费呢?高斯出生于:1777年4月30日。在高斯发现的一个重要定理的日记_2013年第四届c a组蓝桥杯省赛真题解答
文章浏览阅读851次,点赞17次,收藏22次。摘要:本文利用供需算法对核极限学习机(KELM)进行优化,并用于分类。
文章浏览阅读1.1k次。一、系统弱密码登录1、在kali上执行命令行telnet 192.168.26.1292、Login和password都输入msfadmin3、登录成功,进入系统4、测试如下:二、MySQL弱密码登录:1、在kali上执行mysql –h 192.168.26.129 –u root2、登录成功,进入MySQL系统3、测试效果:三、PostgreSQL弱密码登录1、在Kali上执行psql -h 192.168.26.129 –U post..._metasploitable2怎么进入
文章浏览阅读257次。本文将为初学者提供Python学习的详细指南,从Python的历史、基础语法和数据类型到面向对象编程、模块和库的使用。通过本文,您将能够掌握Python编程的核心概念,为今后的编程学习和实践打下坚实基础。_python人工智能开发从入门到精通pdf