SIFT算法-程序员宅基地

文章目录

1. SIFT算法简介
- 1.1 SIFT特征检测步骤
- 1.2 SIFT算法的特点
2. SIFT算法原理
3. SIFT算法在OpenCV中的应用
4. SIFT算法进行图像分类的思路
5. 源码仓库地址

1. SIFT算法简介

SIFT (Scale-invariant feature transform)，尺度不变特征转换，是一种图像局部特征提取算法，它通过在不同的尺度空间中寻找极值点（特征点，关键点）的精确定位和主方向，构建关键点描述符来提取特征。SIFT提取的关键点具有尺度不变性、旋转不变性，而且不会因光照、仿射变换和噪音等因素而干扰。SIFT所查找到的关键点是一些十分突出、不会因光照、仿射变换和噪音等因素而变化的点，如角点、边缘点、暗区的亮点及亮区的暗点等。

1.1 SIFT特征检测步骤

SIFT特征检测主要分为以下四步：

尺度空间的极值检测：搜索所有尺度空间上的图像，通过高斯微分函数来识别潜在的对尺度和旋转不变的兴趣点；
特征点定位：在每个候选的位置上，通过一个拟合精细模型来确定位置尺度，关键点的选取依据他们的稳定程度；
特征方向赋值：基于图像局部的梯度方向，分配给每个关键点位置一个或多个方向，后续的所有操作都是对于关键点的方向、尺度和位置进行变换，从而提供这些特征的不变性；
特征点描述：在每个特征点周围的邻域内，在选定的尺度上测量图像的局部梯度，这些梯度被变换成一种表示，这种表示允许比较大的局部形状的变形和光照变换。

在这里插入图片描述

1.2 SIFT算法的特点

图像的局部特征，对旋转、尺度缩放、亮度变化保持不变，对视角变化、仿射变换、噪声也保持一定程度的稳定性。
独特性好，信息量丰富，适用于海量特征库进行快速、准确的匹配。
多量性，即使是很少几个物体也可以产生大量的SIFT特征。
高速性，经优化的SIFT匹配算法甚至可以达到实时性。
可扩展性，可以很方便的与其他的特征向量进行联合。

2. SIFT算法原理

2.1 尺度空间

在一定的范围内，无论物体是大还是小，人眼都可以分辨出来，然而计算机要有相同的能力却很难，在未知的场景中，计算机视觉并不能够提供物体的尺度大小，其中的一种方法是把物体不同尺度下的图像都提供给机器，让机器能够对物体在不同尺度下有一个统一的认知，在建立统一认知的过程中，要考虑的就是图像在不同的尺度下都存在的特点。

2.1.1 多分辨率金字塔

早期的图像多尺度通常使用图像金字塔的表示形式，图像金字塔是同一图像在不同分辨率下得到的一组结果，生成过程包含：

对原始图像进行平滑；
对平滑后的图像进行下采样。

降采样后得到一系列不断尺寸缩小的图像。显然，一个传统的金字塔中，每一层的图像是其上一层图像长、高的各一半。多分辨率的图像金字塔虽然生成简单，但其本质是降采样，图像的局部特征则难以保持，也就是无法保持特征的尺度不变性。

在这里插入图片描述

2.1.2 高斯金字塔

在这里插入图片描述

*高斯金字塔的构建可以分为两步：*

对图像做高斯平滑；
对平滑后的图像做下采样。

为了让尺度体系其连续性，在简单下采样的基础上增加了高斯滤波，一副图像可以产生几组（octave）图像，一组图像包括几层（interval）图像。

*高斯金字塔分布情况（o组s层）：*

容易看出，高斯金字塔有多组，每组又有多层，一组的多个层之间的尺度是不一样的，也就是使用的高斯参数σ不同，相邻两层之间的尺度相差一个比例因子k，如果每组有S层，则 $k=2^{1/S}$ ，上一组图像的最底层图像是由下一组中尺度为2σ的图像进行因子为2的降采样得到的（高斯金字塔是从底层开始建立的），高斯金字塔构建完成之后，将相邻的金字塔相减就得到了DoG金字塔。

高斯金字塔的组数：
$o=[log_2min(m,n)]-a$
o表示高斯金字塔的层数，m，n分别是图像的行和列。减去的系数a可以在 0 – log₂min(m,n) 之间的任意值，和具体需要的金字塔的顶层图像的大小有关。

高斯模糊参数可由下面的关系得到：
$σ(o,s)=σ_0*2^\frac{o+s}{S}$
其中o为所在的组，s为所在的层，σ₀为初始的尺度，S为每组的层数。

*同组内相邻层的图像尺度间的关系：*
$σ_{s+1}=k*σ_s=2^\frac{1}{S}*σ_s$
*相邻组之间的尺度关系：*
$σ_{o+1}=2*σ_o$
上一组图像的底层是由前一组图像的倒数第二层图像隔点采样生成的，这样可以保证尺度的连续性。

2.1.3 高斯尺度空间（使用不同的参数）

我们要精确表示的物体都是通过一定的尺度来反映的，现实世界的物体也总是通过不同尺度的观察而得到不同的变化。

尺度空间的理论最早在1962年提出，主要思想是通过对原始图像进行尺度变换，获得图像多尺度下的尺度空间表示序列，对这些序列进行尺度空间主轮廓的提取，并以该主轮廓作为一种特征向量，实现边缘、角点检测和不同分辨率上的特征提取等。

尺度空间中各个尺度图像的模糊程度逐渐变大，能够模拟人在距离由近到远时目标在视网膜上的形成过程，尺度越大，图像越模糊。

图像和高斯函数进行卷积运算能够对图像进行模糊，且不同尺度的高斯核可以得到不同程度的模糊图像，一幅图像的高斯尺度空间可以通过图像和不同尺度的高斯核卷积得到：
$L (x, y, σ) = G (x, y, σ) * I (x, y)$
其中，G是高斯函数：
$G(x,y,σ)=\frac{1}{2πσ^2}e^\frac{x^2+y^2}{2σ^2}$
其中，σ是尺度空间因子，是高斯正态分布的标准差，反映了图像被模糊的程度，其值越大图像越模糊，对应的尺度也就越大，L(x,y,σ)对应高斯尺度空间。

T Lindeber在文献《Scale-space theory: a basic tool for analyzing structures at different scales》中证明，高斯核是唯一可以产生多尺度空间的核。

*高斯模糊性质：*

高斯模糊具有圆对称性。
高斯模糊具有线性可分的性质，可以在二维图像上对两个独立的一维空间分别进行计算，大大的减小了运算次数。
对一副图像进行多次连续高斯模糊的效果与一次更大的高斯模糊可以产生同样的效果，大的高斯模型的半径是所用多个高斯模糊半径平方和的平方根。
例如：使用半径分别为6和8的两次高斯模糊变换得到的效果等同于一次半径为10的高斯模糊的效果： $\sqrt{6^2+8^2}$ =10，根据这个关系，使用多个连续较小的高斯模糊处理不会比单个高斯较大处理时间要少。

*构造尺度空间的目的：*

为了检测出来在不同尺度下都存在的特征点，而检测特征点较好的算子是高斯拉普拉斯（LoG），即Δ²G：
$Δ^2=\frac{ə^2}{əx^2}+\frac{ə^2}{əy^2}$
LoG的缺点：虽然其能够较好的检测到图像中的特征点，但是运算量过大。通常可以使用DoG（差分高斯，Different of Gaussian）来近似计算LoG。设k为相邻两个高斯尺度空间的比例因子，则DoG定义为：
$D (x, y, σ) = [G (x, y, kσ) - G (x, y, σ)] * I (x, y) = L (x, y, kσ) - L (x, y, σ)$
其中，L(x,y,σ)是图像的高斯尺度空间。

DoG是如何得到的：将相邻的两个高斯空间的图像相减即可得到DoG响应图像，为了得到DoG响应图像，要先构建高斯尺度空间，而高斯的尺度空间可以在图像金字塔将采用的基础上加上高斯滤波得到，也就是对图像金字塔的每层图像使用不同的参数σ进行高斯模糊，使得每层金字塔有多张高斯模糊过的图像，降采样时，金字塔上边一组图像的第一章是由其下面一组图像倒数第三张降采样得到的。

2.2 DoG空间极值检测（查找关键点）

关键点是一些十分突出的点，不会因光照条件的改变而消失，比如角点、边缘点、暗区域的亮点和亮区域的暗点，既然两幅图像中有相同的景物，那么使用某种方法分别提取各自的稳定点，这些点之间会有相应的匹配点。

所谓关键点，就是在不同尺度空间的图像下检测出的具有方向信息的局部极值点。

为了寻找尺度空间的极值点，每个像素点要和其图像域（同一尺度空间）和尺度域（相邻的尺度空间）的所有相邻点进行比较，当其大于（或者小于）所有相邻点时，该点就是极值点。如图所示，中间的检测点要和其所在图像的3×3邻域8个像素点，以及其相邻的上下两层的3×3领域18个像素点，共26个像素点进行比较。

从上面的描述中可以知道，每组图像的第一层和最后一层是无法进行比较取得极值的。为了满足尺度变换的连续性，在每一组图像的顶层继续使用高斯模糊生成3幅图像，高斯金字塔每组有S+3层图像，DoG金字塔的每组有S+2组图像。

在这里插入图片描述

DoG在计算上只需相邻尺度高斯平滑后图像相减，因此简化了计算。

2.3 删除不好的极值点（特征点）

通过比较检测得到的DoG的局部极值点实在离散的空间搜索得到的，由于离散空间是对连续空间采样得到的结果，因此在离散空间找到的极值点不一定是真正意义上的极值点，因此要设法将不满足条件的点剔除掉。可以通过尺度空间DoG函数进行曲线拟合寻找极值点，这一步的本质是去掉DoG局部曲率非常不对称的点。

要剔除掉的不符合要求的点主要有两种：

低对比度的特征点
不稳定的边缘响应点

2.4 求取特征点的主方向

经过上面的步骤已经找到了在不同尺度下都存在的特征点，为了实现图像旋转不变性，需要给特征点的方向进行赋值。利用特征点邻域像素的梯度分布特性来确定其方向参数，再利用图像的梯度直方图求取关键点局部结构的稳定方向。

找到了特征点，也就可以得到该特征点的尺度σ，也就可以得到特征点所在的尺度图像：L(x,y,σ)=G(x,y,σ)∗I(x,y)。

计算以特征点为中心、以3×1.5σ * 3×1.5σ为半径的区域图像的幅角和幅值，每个点L(x,y)的梯度的模m(x,y)以及方向θ(x,y)可通过下面的公式求得：
$m(x,y)=\sqrt{[L(x+1,y)-L(x-1,y)]^2+[L(x,y+1)-L(x,y-1)]^2}$

$θ(x,y)=arctan\frac{L(x,y+1)-L(x,y-1)}{L(x+1,y)-L(x-1,y)}$

计算得到梯度方向后，就要使用直方图统计特征点邻域内像素对应的梯度方向和幅值。梯度方向的直方图的横轴是梯度方向的角度（梯度方向的范围是0到360度，直方图每36度一个柱共10个柱，或者没45度一个柱共8个柱），纵轴是梯度方向对应梯度幅值的累加，在直方图的峰值就是特征点的主方向。使用高斯函数对直方图进行平滑以增强特征点近的邻域点对关键点方向的作用，并减少突变的影响。

得到特征点的主方向后，对于每个特征点可以得到三个信息(x,y,σ,θ)，即位置、尺度和方向。由此可以确定一个SIFT特征区域，一个SIFT特征区域由三个值表示，中心表示特征点位置，半径表示关键点的尺度，箭头表示主方向。具有多个方向的关键点可以被复制成多份，然后将方向值分别赋给复制后的特征点，一个特征点就产生了多个坐标、尺度相等，但是方向不同的特征点。

2.5 生成特征描述

通过以上的步骤已经找到了SIFT特征点位置、尺度和方向信息，下面就需要使用一组向量来描述关键点也就是生成特征点描述子，这个描述符不只包含特征点，也含有特征点周围对其有贡献的像素点。描述子应具有较高的独立性，以保证匹配率。

特征描述符的生成大致有三个步骤：

校正旋转主方向，确保旋转不变性。
生成描述子，最终形成一个128维的特征向量。
归一化处理，将特征向量长度进行归一化处理，进一步去除光照的影响。

为了保证特征矢量的旋转不变性，要以特征点为中心，在附近邻域内将坐标轴旋转θθ角度，即将坐标轴旋转为特征点的主方向，旋转后邻域内的像素的新坐标为：
$\left[ \begin{matrix} x^\text{'} \\ y^\text{'} \end{matrix} \right]=\left[ \begin{matrix} cosθ & -sinθ \\ sinθ & cosθ \end{matrix}\right]\left[ \begin{matrix} x \\ y \end{matrix} \right]$
旋转之后的主方向为中心取8x8的窗口，左图中央为当前关键点的位置，每个小格代表Wie关键点邻域所在尺度空间的一个像素，求取每个像素的梯度幅值和方向，箭头方向代表梯度方向，长度代表梯度幅值，然后利用高斯窗口对其进行加权运算，最后在每个4x4的小块上绘制8个方向的梯度直方图，计算每个梯度方向的累加值，即可形成一个种子点，如右图所示，每个特征的由4个种子点组成，每个种子点有8个方向的向量信息，这种邻域方向性信息联合增强了算法的抗噪能力，同时对于含有定位误差的特征匹配也提供了比较理性的容错性。

在这里插入图片描述

不同于求主方向，此时每个种子区域的梯度直方图在0-360之间划分为8个方向区间，每个区间为45度，即每个种子点有8个方向的梯度强度信息。

在实际计算的过程中，为了增强匹配的稳健性，Lowe建立对每个关键点使用4x4共16个种子点来描述，这样一个关键点就会产生128维的SIFT特征向量。

在这里插入图片描述

通过对特征点周围的像素进行分块，计算块内梯度直方图，生成具有独特性的向量，这个向量是该区域图像信息的一种抽象，具有唯一性。

综上，SIFT特征对旋转、尺度缩放、亮度等有鲁棒性，是一种非常稳定的局部特征，在图像处理和计算机视觉领域具有很重要的作用，其本身也比较复杂。

DoG尺度空间的极值检测：

首先构造DoG尺度空间，在SIFT中使用不同参数的高斯模糊来表示不同的尺度空间，而构造尺度空间是为了检测在不同尺度下都存在的特征点，特征点的检测比较常用的方法是高斯拉普拉斯，但是LoG的运算量是比较大的，Marr和Hidreth指出可以使用DoG（高斯差分）来近似计算LoG，所以在DoG的尺度空间下检测极值点。

删除不稳定的极值点：

低对比度的极值点+不稳定的边缘响应点

确定特征的的主方向：

以特征点的为中心、以3×1.5σ * 3×1.5σ为半径的领域内计算各个像素点的梯度的幅角和幅值，然后使用直方图对梯度的幅角进行统计。直方图的横轴是梯度的方向，纵轴为梯度方向对应梯度幅值的累加值，直方图中最高峰所对应的方向即为特征点的方向。

生成特征描述子：

首先将坐标轴旋转为特征点的方向，以特征点为中心的16x16的窗口的像素的梯度幅值和方向，将窗口内的像素分为16块，每块是其像素内8个方向的直方图统计，共可以形成128维的特征向量。

3. SIFT算法在OpenCV中的应用

SIFT算法在OpenCV中主要包括以下几个函数：

cv2.xfeatures2d.SIFT_create()：实例化SIFT
sift.detect()：找出关键点
cv2.drawKeypoints()：画出关键点
sift.compute()：根据关键点计算SIFT向量

测试代码如下：

import cv2
import numpy as np
import matplotlib.pyplot as plt

img = cv2.imread('lenna.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 得到特征点
sift = cv2.xfeatures2d.SIFT_create()
kp = sift.detect(gray, None)  # 关键点
img = cv2.drawKeypoints(gray, kp, img)

plt.subplot(121), plt.imshow(gray, 'gray'), plt.title('Gray Image'), plt.axis('off')
plt.subplot(122), plt.imshow(img, 'gray'), plt.title('Keypoints Image'), plt.axis('off')
plt.show()

# 计算特征
# kp为关键点keypoints
# des为描述子descriptors
kp, des = sift.compute(gray, kp)
print(np.array(kp).shape) #(203,)
print(des.shape) #(203, 128)，128维向量

效果如下：

在这里插入图片描述

4. SIFT算法进行图像分类的思路

通过比较待识别图片与训练图集中的每一张图片的sift描述子的个数，找出匹配度最高的那张图片所在的类别，则该类别就被判定为待识别图片的类别。

如以下代码所示，有40类图片，每类图片5张：首先计算待识别图片的des描述子，然后依次比较每一类中每一张图片与该描述子的匹配数之和（平均匹配数），则匹配数之和（平均匹配数）最大的一类判定为与待识别图片为同一类。

在这里插入图片描述

5. 源码仓库地址

图像处理、机器学习的常用算法汇总

本文链接：https://blog.csdn.net/crossoverpptx/article/details/131183313

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

前端开发之vue-grid-layout的使用和实例-程序员宅基地

文章浏览阅读1.1w次，点赞7次，收藏34次。vue-grid-layout的使用、实例、遇到的问题和解决方案_vue-grid-layout

Power Apps-上传附件控件_powerapps点击按钮上传附件-程序员宅基地

文章浏览阅读218次。然后连接一个数据源，就会在下面自动产生一个添加附件的组件。把这个控件复制粘贴到页面里，就可以单独使用来上传了。插入一个“编辑”窗体。_powerapps点击按钮上传附件

C++ 面向对象（Object-Oriented）的特征 & 构造函数& 析构函数_"object(cnofd[\"ofdrender\"])十条"-程序员宅基地

文章浏览阅读264次。(1) Abstraction (抽象)(2) Polymorphism (多态)(3) Inheritance (继承)(4) Encapsulation (封装)_"object(cnofd[\"ofdrender\"])十条"

修改node_modules源码，并保存，使用patch-package打补丁，git提交代码后，所有人可以用到修改后的_修改 node_modules-程序员宅基地

文章浏览阅读133次。删除node_modules，重新npm install看是否成功。在 package.json 文件中的 scripts 中加入。修改你的第三方库的bug等。然后目录会多出一个目录文件。_修改 node_modules

【】kali--password:su的 Authentication failure问题，&sudo passwd root输入密码时Sorry, try again._password: su: authentication failure-程序员宅基地

文章浏览阅读883次。【代码】【】kali--password:su的 Authentication failure问题，&sudo passwd root输入密码时Sorry, try again._password: su: authentication failure

整理5个优秀的微信小程序开源项目_微信小程序开源模板-程序员宅基地

文章浏览阅读1w次，点赞13次，收藏97次。整理5个优秀的微信小程序开源项目。收集了微信小程序开发过程中会使用到的资料、问题以及第三方组件库。_微信小程序开源模板

随便推点

Centos7最简搭建NFS服务器_centos7 搭建nfs server-程序员宅基地

文章浏览阅读128次。Centos7最简搭建NFS服务器_centos7 搭建nfs server

Springboot整合Mybatis-Plus使用总结(mybatis 坑补充)_mybaitis-plus ruledataobjectattributemapper' and '-程序员宅基地

文章浏览阅读1.2k次，点赞2次，收藏3次。前言mybatis在持久层框架中还是比较火的，一般项目都是基于ssm。虽然mybatis可以直接在xml中通过SQL语句操作数据库，很是灵活。但正其操作都要通过SQL语句进行，就必须写大量的xml文件，很是麻烦。mybatis-plus就很好的解决了这个问题。..._mybaitis-plus ruledataobjectattributemapper' and 'com.picc.rule.management.d

EECE 1080C / Programming for ECESummer 2022 Laboratory 4: Global Functions Practice_eece1080c-程序员宅基地

文章浏览阅读325次。EECE 1080C / Programming for ECESummer 2022Laboratory 4: Global Functions PracticePlagiarism will not be tolerated:Topics covered:function creation and call statements (emphasis on global functions)Objective:To practice program development b_eece1080c

洛谷p4777 【模板】扩展中国剩余定理-程序员宅基地

文章浏览阅读53次。被同机房早就1年前就学过的东西我现在才学，wtcl。设要求的数为$x$。设当前处理到第$k$个同余式，设$M = LCM ^ {k - 1} _ {i - 1}$ ，前$k - 1$个的通解就是$x + i * M$。那么其实第$k$个来说，其实就是求一个$y$使得$x + y * M ≡ a_k(mod b_k)$转化一下就是\(y * M ...

android 退出应用没有走ondestory方法,[Android基础论]为何Activity退出之后，系统没有调用onDestroy方法？...-程序员宅基地

文章浏览阅读1.3k次。首先，问题是如何出现的？晚上复查代码，发现一个activity没有调用自己的ondestroy方法我表示非常的费解，于是我检查了下代码。发现再finish代码之后接了如下代码finish();System.exit(0);//这就是罪魁祸首为什么这样写会出现问题System.exit(0);////看一下函数的原型public static void exit (int code)//Added ..._android 手动杀死app,activity不执行ondestroy

SylixOS快问快答_select函数导致堆栈溢出 sylixos-程序员宅基地

文章浏览阅读894次。Q: SylixOS 版权是什么形式, 是否分为<开发版税>和<运行时版税>.A: SylixOS 是开源并免费的操作系统, 支持 BSD/GPL 协议(GPL 版本暂未确定). 没有任何的运行时版税. 您可以用她来做任何您喜欢做的项目. 也可以修改 SylixOS 的源代码, 不需要支付任何费用. 当然笔者希望您可以将使用 SylixOS 开发的项目 (不需要开源)或对 SylixOS 源码的修改及时告知笔者.需要指出: SylixOS 本身仅是笔者用来提升自己水平而开发的_select函数导致堆栈溢出 sylixos