论文阅读笔记(二)细粒度图像分类_pose normalized cnn-程序员宅基地

技术标签: 论文阅读  图像处理  深度学习  细粒度图像  

0、参考文献

[1]见微知著 http://geek.csdn.net/news/detail/191718

[2]Cyiano http://blog.csdn.net/Cyiano/article/details/72081855

1、概要

细粒度图像识别是现在图像分类中一个颇具挑战性的任务,它的目标是在一个大类中的数百数千个子类中正确识别目标。

相同的子类中物体的动作姿态可能大不相同,不同的子类中物体可能又有着相同的动作姿态,这是识别的一大难点。

细粒度图像分类的关键点在寻找一些存在细微差别的局部区域。

如何有效地对前景对象进行检测,并从中发现重要的局部区域信息,成为了细粒度图像分类算法要解决的关键问题。

对细粒度分类模型,可以按照其使用的监督信息的强弱,分为“基于强监督信息的分类模型”和“基于弱监督信息的分类模型”两大类。

2、基于强监督信息的细粒度图像分类模型

所谓“强监督细粒度图像分类模型”是指:在模型训练时,为了获得更好的分类精度,除了图像的类别标签外,还使用了物体标注框(Object Bounding Box)和部位标注点(Part Annotation)等额外的人工标注信息,如图所示。


1)Part-based R-CNN   《Part-based R-CNNs for Fine-grained Category Detection》

Part-based R-CNN就是利用R-CNN算法对细粒度图像进行物体级别(例如鸟类)与其局部区域(头、身体等部位)的检测,其总体流程如图所示。


首先利用Selective Search等算法在细粒度图像中产生物体或物体部位可能出现的候选框(Object Proposal)。

之后用类似于R-CNN做物体检测的流程,借助细粒度图像中的Object Bounding Box和Part Annotation可以训练出三个检测模型(Detection Model):一个对应细粒度物体级别检测;一个对应物体头部检测;另一个则对应躯干部位检测。

然后,对三个检测模型得到的检测框加上位置几何约束,例如,头部和躯干的大体方位,以及位置偏移不能太离谱等。这样便可得到较理想的物体/部位检测结果(如图右上)。

接下来将得到的图像块(Image Patch)作为输入,分别训练一个CNN,则该CNN可以学习到针对该物体/部位的特征。

最终将三者的全连接层特征级联(Concatenate)作为整张细粒度图像的特征表示。

显然,这样的特征表示既包含全部特征(即物体级别特征),又包含具有更强判别性的局部特征(即部位特征:头部特征/躯干特征),因此分类精度较理想。但在Part-based R-CNN中,不仅在训练时需要借助Bounding Box和Part Annotation,为了取得满意的分类精度,在测试时甚至还要求测试图像提供Bounding Box。这便限制了Part-based R-CNN在实际场景中的应用。

2)Pose Normalized CNN 《Bird Species Categorization Using Pose Normalized Deep Convolutional Nets》

有感于Part-based R-CNN,S. Branson等人提出在用DPM算法得到Part Annotation的预测点后同样可以获得物体级别和部位级别的检测框,如图所示。


与之前工作不同的是,Pose Normalized CNN对部位级别图像块做了姿态对齐操作。此外,由于CNN不同层的特征具有不同的表示特性(如浅层特征表示边缘等信息,深层特征更具高层语义),该工作还提出应针对细粒度图像不同级别的图像块,提取不同层的卷积特征。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/huang2818138/article/details/78154396

智能推荐

No valid entries or contents found, this is not a valid OOXML (Office Open XML) file Excel导入问题-程序员宅基地

文章浏览阅读2w次,点赞10次,收藏6次。No valid entries or contents found, this is not a valid OOXML (Office Open XML) file_no valid entries or contents found, this is not a valid ooxml (office open x

系统架构设计师-理解认知:软考90问(1-30)_软考系统架构师常见问题-程序员宅基地

文章浏览阅读315次。软考90问,帮助您更好地了解软考高级中的系统架构设计师。_软考系统架构师常见问题

Spring框架(基于xml装配Bean)_bean 装配-程序员宅基地

文章浏览阅读968次。2 装配Bean概述大部分场景下,都会使用ApplicationContext的具体实现类,因为其对应的SpringIOC容器功能相对强大.而在Spring中提供了3种方法进行配置,以下3种方式都会被用到,有时还会混合使用,但是我们需要明确三者使用的优先级,这将更有利于我们开发  1) 在xml中显式配置  2) 在Java接口和类中实现配置  3) 隐式Bean的发现机制和自动装配原则优先级推荐  第一优先级:基于约定优于配置的原则,最优先的应该是通过隐式Bean的发现机制和自动装配的原则._bean 装配

给ListView下的子控件设置点击事件并获取点击item在ListView中的position_listview 子控件position-程序员宅基地

文章浏览阅读521次。@Overridepublic View getView(int position, View convertView, ViewGroup parent) { myViewHolder.iv_only_one_image.setOnClickListener(this); myViewHolder.iv_only_one_image.setTag(position);}@Overridepublic void onClick(View v) { switch (v.getId(_listview 子控件position

非功能需求分析--web开发课内实例_软件非功能需求案例分析-程序员宅基地

文章浏览阅读6.1k次,点赞7次,收藏43次。针对于会议管理的前期非功能性需求分析。由于项目涉及用户不是很多,所以对系统的非功能性需求也不是很大。主要分为五大常见类别进行分析。非功能需求针对于会议管理系统,有以下方面的非功能性需求一、性能需求响应时间在95%的情况下,一般时段响应时间不超过1.5秒,高峰时段不超过4秒。定位系统从点击到第一个界面显示出来所需要的时间不得超过300毫秒。在网络畅通时,每一功能详细页面加载不得超过5秒。在推荐配置环境下:登录响应时间在2秒内,刷新栏目响应时间在2秒内,刷新条目分页列表响应时间2秒内,..._软件非功能需求案例分析

Element-UI的使用_element ui 使用-程序员宅基地

文章浏览阅读2.5k次。elementui_element ui 使用

随便推点

YUV转RGB,无除法,无浮点运算_yuv转rgb 去除浮点-程序员宅基地

文章浏览阅读648次。项目需要,将YUV422图像转换成RGB图像,考虑到效率问题,不能使用除法,不能使用浮点运算。参考http://blog.csdn.net/housisong/article/details/1859084不使用浮点数:在应用时,希望避免低速的浮点运算,所以需要整数算法,我们可以将先乘上一定的倍数来实现整数运算算法.不使用除法:通过移位运算代替除法,避免除法运算带来的效率问题。原公_yuv转rgb 去除浮点

[UnityShader]渲染队列、ZWrite和ZTest_一般会先渲染离相机远的,再渲染离相机近的-程序员宅基地

文章浏览阅读228次。http://blog.csdn.net/lyh916/article/details/45317571参考链接:http://blog.csdn.net/zhuyingqingfen/article/details/18979547http://blog.csdn.net/lysc_forever/article/details/13614449htt_一般会先渲染离相机远的,再渲染离相机近的

1850-接水问题 ZCMU_第 1 行两个整数 n 和 m,用一个空格隔开,分别表示人数和游戏机个数。 第 2 行-程序员宅基地

文章浏览阅读157次。Description问题描述   学校里有一个水房,水房里一共装有m 个龙头可供同学们打开水,每个龙头每秒钟的 供水量相等,均为1。 现在有n 名同学准备接水,他们的初始接水顺序已经确定。将这些同学按接水顺序从1 到n 编号,i 号同学的接水量为wi。接水开始时,1 到m 号同学各占一个水龙头,并同时打 开水龙头接水。当其中某名同学j 完成其接水量要求wj 后,下一名..._第 1 行两个整数 n 和 m,用一个空格隔开,分别表示人数和游戏机个数。 第 2 行

Oracle数据库注意事项-程序员宅基地

文章浏览阅读152次。conn system/manager //切换用户show user;exit;start d:\aa.sql;create user xiaoming identified by m123 //创建用户grant connect to xiaoming //授权grant resource to xiaominggrant select on emp to x..._oracle nvl 注意事項

VS2013使用lua5.3教程(两种方式)_vs2013怎么打开lua-程序员宅基地

文章浏览阅读6.1k次,点赞3次,收藏6次。第一步:去lua官网下载lua最新源码http://www.lua.org/ftp/ 然后解压解压后得到第二步:将源代码编译成静态库打开VS2013创建一个win32控制台应用程序 点击下一步设置为静态库,空项目,去掉预编译头 将解压出来的lua-5.3.4目录下的src文件中的头文件和源文件添加到项目中 最后点击生成解决方案 在项目目录lua5.3/Debug下面我们可以看到.li_vs2013怎么打开lua

【正则表达式+gsed】获取包含匹配字符某行到包含匹配字符另外某行的所有内容-程序员宅基地

文章浏览阅读606次。gsed 似乎只能针对一行进行替换?!_gsed

推荐文章

热门文章

相关标签