深度学习的特征提取算法
目录
二、LBP(Local Binary Patterns,局部二值模式)
三、HOG算法(Histogram of Oriented Gradient, 方向梯度直方图)
四、SIFT算子(Scale-invariant feature transform ,尺度不变特征变换)
前言
在多模态融合过程中,有特征提取(表征)+映射(转换)+融合+多任务学习
一、特征提取
在深度领域特征提取主要有LBP,HOG,SIFT,Haar,TF-IDF(文本)
二、LBP(Local Binary Patterns,局部二值模式)
LBP算子是一种用来描述图像局部纹理特征的算子,具有灰度不变形。
主要思想:在目标像素周围定义3*3的窗口,以目标像素为阈值,将相邻的8个像素的灰度值与目标像素进行对比,如果大于目标像素,则标记为1,如果小于或等于则标记为0。这样,对每个窗口都可以产生一个8位的二进制数。这样就得到了目标像素的LBP值。
步骤:
(1)将目标检测图像划分为16*16的小区域(cell)
(2)对于每个cell的一个像素,将相邻的8个像素灰度值与其进行比较,弱周围像素值>中心像素值,则该像素点的位置被标记为1,否则为0.
(3)然后计算每个cell的统计直方图进行连接成为一个特征向量,也就是整篇幅的LBP纹理特征向量。然后利用SVM或者其他机器学习算法进行分类。
三、HOG算法(Histogram of Oriented Gradient, 方向梯度直方图)
在一幅图像中,图像的表象和形状能够被边缘或梯度的方向密度分布很好的表示,HOG具有几何和光学不变性。
其步骤为:
(1)将图像灰度化(将图像看做一个x,y,z(灰度)的三维图像);
(2)采用Gamma校正法对输入图像进行颜色空间的标准化(归一化)。目的是调节图像的对比度,降低图像局部的阴影和光照变化造成的影响,同时可以抑制噪音的干扰;
(3)计算图像每个像素的梯度(包括大小和方向);
(4)将图像划分成小cell(例如6*6像素)
(5)统计每个cell的梯度直方图(不同梯度的个数),即可形成每个cell的descriptor;
(6)将每几个cell组成一个block(3*3个cell/block),一个block内所有cell的特征descriptor串联起来便得到该block的HOG特征descriptor;
(7)将图像image内的所有block的HOG特征descriptor串联起来就可以得到该图像(要检测的目标)的HOG特征descriptor。这个就是最终的可供分类使用的特征向量。
四、SIFT算子(Scale-invariant feature transform ,尺度不变特征变换)
SIFT算子通过求一幅图中的特征及其有关尺寸和方向的描述得到特征并进行图像特征点匹配。具有尺度不变性和旋转不变性。
其主要步骤如下:
(1) 尺度空间的生成。将图像卷积上一个高斯核,得到不同平滑程度和尺寸的图像,模拟图像数据的多尺度特征
(2)检测尺度空间极值点。为了寻找尺度空间的极值点,每一个采样点要和他所有的相邻点比较,看其是否比它的图像域和尺度域的相邻大还是小。如图,中间的检测点需和其相邻的8个相邻点和上下相点对应的9*2个点共26个点比较,以确保在尺度空间和二维图像空间都检测到极值点。一个点如果在DOG尺度空间本层以及上下两层的26个领域中是最大或最小值时,就认为该点是图像在该尺度下的一个特征点
(3)去除不好的特征点。通过拟合 三维二次函数以精确确定关键点的位置和尺度,同时去除低对比度的关键点和不稳定的边缘相应点,以增强匹配稳定性,提高抗噪声能力。
(4)为每个关键点指定方向参数。为每个特征点计算一个方向,依照这个方向做进一步的计算,利用关键点领域像素的梯度方向分布特性为每个关键点指定方向参数,使算子具备旋转不变性。
(5)关键点描述子的生成。以关键点为中心取8*8的窗口。在每个4*4的小块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,即可形成一个种子点,如图所示。此图中一个关键点有2*2共4个种子点组成,每个种子点有8个方向向量信息。这种领域方向性信息联合的思想增强了算法抗噪声的能力,同时对于含有定位误差的特征匹配也提供了较好的容错性。
6)根据SIFT进行图像的匹配。生成A、B两幅图的描述子,(分别是k1*128维和k2*128维),就将两图中各个scale(所有scale)的描述子进行匹配,匹配上128维即可表示两个特征点匹配上了。
五、Haar算法
Haar-like特征是计算机视觉领域一种常用的特征描述算子(也称为Haar特征,这是因为Haar-like是受到一维haar小波的启示而发明的,所以称为类Haar特征),后来又将Haar-like扩展到三维空间(称为3DHaar-Like)用来描述视频中的动态特征。关于Haar的发展历程如图1所示。
Haar-like特征的特点
目前最常用的还是Haar-like特征,描述图像的特征,多用于人脸检测、行人检测,等目标检测;Haar-like特征可以理解为卷积模板(如同prewitt、sobel算子,当然不完全一样),Haar-like特征模板内只有白色和黑色两种矩形,并定义该模板的特征值为白色矩形像素和减去黑色矩形像素和。Haar特征值反映了图像的灰度变化情况。例如:脸部的一些特征能由矩形特征简单的描述,如:眼睛要比脸颊颜色要深,鼻梁两侧比鼻梁颜色要深,嘴巴比周围颜色要深等。但矩形特征只对一些简单的图形结构,如边缘、线段较敏感,所以只能描述特定走向(水平、垂直、对角)的结构。
Haar-like特征的计算
通过改变特征模板的大小和位置,可在图像子窗口中穷举出大量的特征。图1(D)中的的特征模板称为“特征原型”;特征原型在图像子窗口中扩展(平移伸缩)得到的特征称为“矩形特征”;矩形特征的值称为“特征值”。矩形特征可位于图像任意位置,大小也可以任意改变,所以矩形特征值是矩形模版类别、矩形位置和矩形大小这三个因素的函数。故类别、大小和位置的变化,使得很小的检测窗口含有非常多的矩形特征,如:在24*24像素大小的检测窗口内矩形特征数量可以达到16万个。
六、TF-IDF算法
TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
假如说我们在百度上搜索“水果”这个词,百度爬虫抓取的网站内容有下面5个,你觉得哪个内容排名第一?
内容1: 水果有水果,水果,水果,水果,水果
内容2: 水果有苹果,桃子,西瓜,菠萝,梨子
内容3: 蔬菜都很好吃,我最爱吃茄子了
内容4: 苹果,梨子都是很好吃的水果
内容5:好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃
相信很多人心里面有了答案,大家凭直觉,内容2 跟内容5 应该排名靠前,内容5很可能是第1,内容2是排名第2。
最终的排名顺序为52413,至于为什么呢?核心词为“水果”,5和2里都有“水果”和“苹果”两个关键词且5里有出现两次“水果”,4比2少了一个苹果关键词,1里面包括有“水果”这个关键词但有堆砌行为,3和核心词没有相关性。