图 学 学 报
JOURNAL OF GRAPHICS
OctoberVol.39
2018No.5
结合Faster RCNN和相似性度量的行人目标检测
李宗民1, 邢敏敏1, 刘玉杰1, 李 华2
(1. 中国石油大学(华东)计算机与通信工程学院,山东 青岛 266580;
2. 中国科学院大学中科院计算所,北京 100190)
摘要:行人检测是计算机视觉领域的一个研究热点,针对目前算法中常采用非极大值抑
制和硬阈值筛选的方法作为后处理,容易造成误检和漏检的问题,提出一种基于相似性度量的行人目标检测方法。首先,采用Faster RCNN生成一系列的目标候选集,应用非极大值抑制对候选集进行初步筛选,然后由较高置信度的目标区域建立特征模板,再根据特征相似性对较低置信度的目标区域做进一步判别,最后将筛选后的目标候选集和模板区域作为检测结果。在VOC、INRIA、Caltech数据集的实验结果证明,基于相似性度量的算法提高了行人检测的准确率。 关
键
词:行人检测;目标候选集筛选;特征相似性度量;模板匹配
中图分类号:TP 391 DOI:10.11996/JG.j.2095-302X.2018050901 文献标识码:A 文 章 编 号:2095-302X(2018)05-0901-08
Pedestrian Object Detection Based on Faster RCNN and
Similarity Measurement
LI Zongmin1, XING Minmin1, LIU Yujie1, LI Hua2
(1. College of Computer and Communication Engineering, China University of Petroleum, Qingdao Shandong 266580, China;
2. University of Chinese Academy of Sciences, Institute of Computing Technology Chinese Academy of Sciences, Beijing 100190, China)
Abstract: Pedestrian detection has become a hot topic in the field of computer vision. Non-maximal
suppression combined with hard threshold is the most common post-process method in pedestrian detection, whereas it is easy to cause false positive and false negative. As to this problem, this paper presents a pedestrian-object detection method based on similarity measurement. Firstly, Faster RCNN is used to build a series of candidate proposals among which initial selection is made based on non-maximal suppression. Then the authors create feature templates by target areas with high confidence, and make a further selection in the low-confidence proposals according to the feature similarity. Lastly, the detection results are composed of the reserved proposals and the templates. The experimental results from VOC, INRIA, Caltech datasets demonstrate that similarity measurement method can achieve higher pedestrian detection performance. Keywords: pedestrian detection; object proposals selecting; feature similarity measurement; template matching
1 相关工作
行人检测是计算机视觉领域基础性的研究方
向之一,其任务是从图片中识别并定位出人体目标,且应用范围十分广泛[1-5],如商场人流量统计、智能交通等。自然场景中,由于存在多姿态和遮
收稿日期:2017-12-28;定稿日期:2018-03-15 基金项目:国家自然科学基金项目(61379106,61379082,61227802);山东省自然科学基金项目(ZR2013FM036,ZR2015FM011) 第一作者:李宗民(1965–),男,山东济南人,教授,博士,博士生导师。主要研究方向为计算机图形学、图像处理、科学计算可视化。
E-mail:1013126852@qq.com,lizongmin@upc.edu.cn
902 图像与视频处理 2018年
挡等问题,行人检测算法在实际应用中仍然面临具大的挑战。
传统的基于手工特征的行人检测方法在近几十年来有了深入的研究和发展,本文总结并分析了众多的手工特征及其性能和作用[6-8]。ZHANG等[9]将多种滤波器通道特征的方法整合到统一的框架中,给出了概括性的论述。
目前,基于卷积神经网络的检测算法[10-14]逐渐成为了主流研究方向,并在图像检索和视频处理等领域[15-17]取得优秀成果。其中本文采用了区域位置判别的思路[10-12],首先生成一系列的候选区域,然后基于这些区域做分类和识别。区域的生成是一个重要的环节。传统的基于滑动窗口产生候选位置的方法,由于存在大量位置冗余并且速度较慢,不能满足实时性的检测,在基于深度学习的检测方法中应用越来越少。本文实验了众多产生候选位置的方法[18-19],并且说明了若产生的候选框召回率较高,将有利于改善检测效果,不仅能减少候选框的数量,而且可以提高检测准确性。ZITNICK 和DOLLÁR[20]提出了Edgebox算法,利用边缘信息推断一个包围盒内包含目标的可能性,该算法在检测速度上占据一定的优势;UIJLINGS等[21]发现图像中的目标具有一定的层次关系,并且目标的尺度多种多样,提出一种选择搜索(selective search)的策略,提高了多尺度目标检测的鲁棒性。但是Edgebox和Selective Search方法中产生候选位置的步骤均独立于检测过程之外,需要另外计算,而后续的深度学习网络将候
选位置的产生、特征提取和分类器连接在一起,构成了端到端的网络结构。REN等[12]提出一种RPN(region proposal network)结构,采用全卷积的形式在最后的卷积层上进行滑动,得到多尺度、多长宽比的候选框,最后输出目标包围盒以及该位置属于目标的置信度得分,应用锚点设置和边框回归可使候选框定位更加准确。该方法实现了卷积特征的共享,打破了候选位置集生成速度上的瓶颈。由此可见,随着区域生成方法的不断改进,检测效果不断提升,且候选位置的生成策略和质量都对整个算法有重要的影响。
当生成的候选区域具有了较高的召回率,能涵盖所有可能的目标位置时,这些区域就是高质量的候选集合,但在后处理过程中,对候选集合元素能否合理地筛选,也很大程度上影响着算法的最终性能。目前,后处理过程的一般步骤是采用非极大值抑制(non maximal suppression, NMS)[22-24],去除大量的误检和冗余包围盒得到局部极大值,如图1所示。然后选定合适的阈值,通过阈值判定这些局部极大值是否属于正确的检测结果,图1(c)经过阈值(一般为0.6[12])判别后保留了高于阈值的区域,去掉了低于阈值的部分。显然,这样的筛选结果并不合理,经过硬阈值筛选之后存在漏检和误检,如第1行图像中最左边的人由于分类器得分0.35低于阈值而被漏检;在第2行图像中包含胳膊和鸟的区域由于具有较高的分类器得分而被误检。这些情况都是不合理的检测结果。
(a) 目标真值 (b) NMS结果 (c) 硬阈值筛选后的结果 (d) 正确检测结果
图1 目标真值和各过程检测结果
第5期 李宗民,等:结合Faster RCNN和相似性度量的行人目标检测 903
本质上,不同类的目标之间是具有可区分性的,之所以现在的检测算法没有达到人眼的识别精度,会产生上述错误的原因,一方面是分类器判别能力有限,使得分类得分不合理;另一方面在后续的过程中缺乏对分类器作用的补救措施。从图像特征层面深入分析,同类目标虽然在外观上呈现多样性,但却具有相同的深层语义特征;不同类目标之间,即使外观有一定的相似性,但语义却不相关。如图1(c)中第2行所示,鸟类和背景区域具有较高的分类得分,但是在语义上并不属于人类目标,因此可以排除这一错误的检测结果,得到图1(d)。可见,如果对语义信息进一步分析和利用,将有助于提高判别准确性。
综上所述,针对后处理过程中筛选机制易造成漏检和误检的不足,本文根据同类目标之间具有相同语义特性规律,选取高分类得分的候选区域作为模板,将低分类得分的候选区域深层语义特征与模板比较,再次进行类别判断。相比于硬
阈值筛选,该方法能较大程度的保留真正的目标位置,优化目标候选区域的筛选过程。
2 本文方法
整个算法过程分为两个阶段:生成目标候选区域和基于相似性度量的优化筛选。方法流程如图2所示,输入一幅图像,首先基于Faster RCNN框架由RPN网络生成一系列的目标候选位置,并且每个位置给出置信度得分,然后经过NMS筛选出局部极大值。具有高分类得分的候选区域由于分辨率较大、遮挡和形变较少,因此置信度较大,将其作为特征模板;低置信度得分的候选目标位置一般分辨率较低,与其他类目标或背景难以区分,需要通过与模板的相似度比较做进一步分析和判断。最后综合模板区域和筛选出的结果,输出检测结果。本文基于faster RCNN框架实现检测,将候选集的生成与检测过程整合在统一的框架中,实现了端到端的检测,降低了错误率。
图2 方法框架图
3 目标候选集分析
3.1 产生目标候选集
本文采用RPN网络[12]生成初始的目标候选集。在卷积网络的最后一层,采用3×3的卷积核以滑动窗口的形式生成候选目标位置,并在每个位置设计9种锚点,分为3种长宽比和尺度的包围盒,即在一个位置产生9种候选框。经过此过程一幅500400的图像大约生成2 000个候选包围
框。如何从庞大的候选集中判断并选择出正确包含目标的位置是一个很大的挑战。 3.2 后处理过程分析
通过NMS算法对产生的目标候选集去冗余,实现初步筛选。为了进一步说明后处理中各个环节的作用,本文在VOC2007数据集[25]上对4 192张包含人体目标的图像进行实验,其中真值有10 449个,经过NMS之后大约筛选出227 011个局部极大值,并在图3中用‘+’表示出来。横坐标为
904 图像与视频处理 2018年
某个区域包含人的分类得分,大小介于0~1之间,该值越大表示越可能是真实目标。纵坐标为局部极大值所对应的图像块区域的大小,这里表示为区域面积占整个图像的比例,值area ratio范围介于0~1之间。
如图3(a)所示,用蓝色‘+’表示局部极大值得分的分布和面积所占比例。图3(b)中,蓝色同样为局部极大值的分布,红色为目标真值在通过同样的分类器之后得分的分布。对比这两幅图可以看出:从初始的候选集合筛选之后得到的局部极大值(蓝色‘+’)能够覆盖目标真值(红色‘+’)位置分布,说明了
NMS在去冗余的同时对正确结果的保留度较高;但是另一方面,分类器并不能完全地给予合理的得分,图3(b)中红色‘+’表示的目标真值并不是全部给予高分类得分,虽然在横坐标轴接近1的位置,红色‘+’分布要远远多于接近0的部分,但仍有部分真值分类得分为0.5以下。如果按照一般的方法,将得分高于阈值(一般为0.6)的作为最终的检测结果,即使是对真值检测也必然会有漏检,而对于候选的局部极大值来说,会使得低分区中正确的目标位置被漏掉,而高分区中非目标的局部极大值被保留,那么必然会造成漏检和误检问题。
(a) 局部极大值面积大小及分类得分分布 (b) 真值区域面积大小及分类得分分布
图3 区域面积及分类器得分分布图 (蓝色‘+’表示NMS之后的局部极大值;红色‘+’表示真值面积大小和经过分类器之后的得分)
4 目标位置优选
为了弥补分类器不能精确判别的缺陷以及NMS之后硬阈值区分检测结果的不足,从原始的特征层面进行分析,采用特征模板匹配判别的方式对初步的局部极大值做进一步的筛选。特征模板的建立直接来自于分类得分较高的局部极大值,对于低得分的局部极大值,如果与模板的匹配度较大,则将其加入检测结果中;如果与模板的匹配度较小,则舍去。最后综合作为模板的区域和筛选出的部分,得到最终的检测结果。在匹配判别的过程中,只有最原始的局部极大值图像块区域特征之间的比较,才可弥补分类器的缺陷。 4.1 特征相似性分析
这里用来建立模板的图像特征是深度卷积特征。卷积神经网络通过逐层卷积将原始的图像特
征层层映射,各层特征对原始图像的表达能力不同。为了选择更具判别力的特征作为模板,需要度量各层特征对于不同类别的区分度。
将卷积层的特征尺度表示为K×W×H,其中,K为该层卷积特征图的数量;W×H为特征图的大小。本文采用汉明距离表示两层特征之间的距离,距离越大说明特征差异性越大,也就是相似度越低。距离计算式为
df(fConvi,fConvj)dhanmming(fConvi,fConvj)
1
dhanmming(fConvik,fConvjk)(1)
kk其中,fConvi和fConvj分别为第i和j层卷积特征;fConvik和fConvjk为在每一层卷积中第k个特征图,通过汉明距离dhanmming统计两个特征在相应位置的不同取值个数,表示特征的差异性,取多个特征图汉明距离的平均值作为各层卷积特征的差异性距
第5期 李宗民,等:结合Faster RCNN和相似性度量的行人目标检测 905
离df。
采用VGG-16网络[26]在3 000张数据上测试特征相似度。VGG-16网络包含13个卷积层和3个全链接层,测量的卷积层包括Conv1-2、Conv4-1、
度比其中一类与背景的差异度要大(Fc7中
Car-Person差异度要比Car-Negative、
Person-Negative的差异度稍大,而其他层并没有体现),这是由于Car和Person类的内聚性较好,但Fc6、Fc7,其代表了从底层到高层的不同特征。数据集包含3类数据,1 000张车图片和1 000张行人数据作为两类正样本,1 000张随机裁剪的背景图像作为负样本。
测试结果见表1、2,表1数据为同类目标各层特征相似度,表2数据为不同类目标各层特征差异度。对于类内相似度的测量,采用Car-Car、
person-person、negative-negative等3类数据;类间相似度的测量,采用Car-person、Car-negative、
person-negative,计算式为
i,jN
SCC1
a,b1N(N1)/21,dhanmming(faji1
i,fbij)(2)
DC1i,jN
a,CbN2dhanmming(fai1,j1
i,fbj) (3)
其中,S为类内目标特征相似度计算公式;D为类间目标特征差异度计算公式;a, b为两类数据;fai和fbi为图像特征;N为数据量1 000。
表1 同类目标各层特征之间的相似度S(%)
数据类别
Conv1-2 Conv4-1 Fc6
Fc7
Car-Car 31.62 35.91 50.63 86.93 Person-Person 31.37 33.67 49.72 86.90 Negative-Negative 29.36
35.11 49.01 84.68
表2 不同类目标各层特征之间的差异度D(%)
数据类别
Conv1-2 Conv4-1 Fc6
Fc7
Car-Person 71.93 66.52 52.01 16.41 Car-Negative 70.42 65.45 52.76 15.03 Person-Negative 73.21 66.62 52.76 15.38
由表1、2可知,网络层数越深,同类目标之间的特征相似性越大,不同类目标之间的差异度减小。因为浅层特征中具有更多的颜色、纹理等细节信息,个体之间的区别性较大,而深层特征具有更抽象的语义特性,相对差异性较小。其中,
Fc7对于不同类目标的区分能力比其他各层效果要好,两类不同的目标Car和Person之间的差异
背景图像复杂,其特征内聚性较差。另一方面,
Fc7作为最后层输出,对于行人特性具有更强的全局性描述,抽象性更高,且相比于Conv1-2(特征图大小为22422464)、Conv4-1(特征图大小为
2828256),Fc7(特征图大小为114096)具有更少的特征数量,稀疏性较好。综上考虑多种因素,选择Fc7特征作为模板特征。
4.2 模板匹配
设定一个分类器得分阈值P[0,1](该值在实验部分给出),高于该阈值的局部极大值可以作为模板,低于该阈值的局部极大值需要做进一步匹配筛选。由多个符合条件的局部极大值区域构成
模板目标集O{oN1,o2,o3,,on}n1,对应的特征集合为F{ffN1,f2,f3,,n}n1,
这里的特征选择的是VGG-16的第7层。取特征集合中各个特征的平均值作为模板FT,即
N
FF
1
TN
fn (4)
n1
待筛选的局部极大值集合为
P{ppK
1,2,p3,,pk}k1,其相应的特征集合为F{ffKpp1,p2,fp3,,fpk}k1,采用余弦距离度量每
个局部极大值与模板之间的相似度,即
dkcosine(fpk,FT), k1,2,3,,K (5)
设置一个相似度阈值Q[0,1] (该值在实验部分给出),当某个局部极大值特征pk与模板的相似度距离小于Q时,对该极大值标记为1,表示保留该极大值,反之标记为0。依次比较之后,目标集O中各
个元素均具有了新的标签Y{yK
1,y2,y3,,yk}k1,
yk{0,1},即
Y
0,otherwise
1,if d (6) k
Q之后在候选集合中标签为1 的局部极大值,即为筛选后的结果。至此,通过模板优化筛选的过程已经结束,最后综合筛选的结果和当做模板的局部极大值为检测结果Sresult,即
SresultOPyk1 (7)
906 图像与视频处理 2018年
5 实验结果与分析
5.1 参数设置
在算法中涉及到P、Q两个阈值参数,本文基于faster RCNN的框架和VGG-16网络结构,采用
NMS和相似性模板匹配作为后处理,在INRIA数据集上进行了实验。其实验结果如图4所示,固定Q值时,P值对应的检测精度呈上升趋势,在值为0.95时达到顶峰。固定P值时,Q值对应的检测精度先上升后降低,在0.30时达到峰值。因此,本文所有实验中均设置P=0.95,Q=0.30。
图4 各参数下的检测结果
5.2 定量分析
由于本文着重于研究行人检测方法,因此只在VOC[25]的包含人目标的部分数据集(称为
VOCperson)、Caltech
[27]
、INRIA数据集上进行了
相关实验。其中VOCperson2007包含4 192张图像,有10 449个真值;VOCperson2012包含了4 087张图像,有10 187个真值。采用ZF
[28]
、VGG两
种网络在4个数据集上实验,结果见表3。
(1) 相比TA-CNN[29]、Checkboards[9]方法,基于Faster RCNN和VGG的行人检测方法即使采用了传统的NMS进行后处理,但却具有较低的误检率。一方面卷积神经网络通过层层映射可以得到更加具有代表性和鲁棒性的行人特征描述,比传统的手工设计的特征具有更大的优势;另一方面,通过RPN网络产生的候选区域具有较高的质量,为后续的筛选奠定了良好的基础。因此,基于 卷积网络结构的行人检测方法体现出精度上的 优势。
(2) Faster RCNN+NMS+ZF*和
Faster
RCNN+NMS+VGG*在各个数据集上的结果对比,
表明更深层的网络结构对最后的检测效果起到了更加积极的促进作用,精度大约提高了12%,这与特征的表征能力息息相关,更深的网络结构能够挖掘出更加抽象、更具全局特性的特征向量,这在区分类别方面颇具优势,不仅能凸显类内目标的共性,而且能够忽略类内目标之间在细节上
的差异,从而实现了对行人目标特征的高度概括。
(3) 通过Faster RCNN+NMS+VGG*与 Faster RCNN+NMS+VGG+模板匹配
**
、Faster
RCNN+NMS+ZF*与Faster RCNN+NMS+ZF+模板匹配**,其两组对比实验可以看出,添加模板匹配步骤对于提高检测精度有积极的作用,平均提高4个百分点。且在Caltech数据集上实验结果相比其他行人检测方法TA-CNN[29]、Checkboards[9],在检测精度上也有明显提高。通过类内目标之间的特征相似性分析可知,即使在分类器不能正确分类的情况下,仍能通过底层图像特征来判别两幅候选区域中是否包含了同样的目标,使得通过建立特征模板对低置信度的区域再次筛选成为了可
能,实验结果表明,该方法有助于改善后处理过程中的筛选机制,避免了硬阈值划分目标非目标的不足。
表3 各方法在多个数据集上的检测精度对比
数据集
方法
检测精度(%) 误检率MR(%)
Faster RCNN+NMS+ZF* 64.5
-
Faster RCNN+NMS+ZF+
VOCperson模板匹配**
69.0 - 2007 Faster RCNN+NMS+VGG* 76.0 -
Faster RCNN+NMS+VGG+
模板匹配**
79.2 -
VOCperson
Faster RCNN+NMS+VGG* 81.6
-
2012
Faster RCNN+NMS+VGG+
模板匹配** 84.3 -
Faster RCNN+NMS+VGG* 94.5
-
INRIA
Faster RCNN+NMS+VGG+ 模板匹配**
96.9 -
TA-CNN - 20.9 Checkerboards - 18.0
Caltech
Faster RCNN+NMS+VGG* - 16.6
Faster RCNN+NMS+VGG+ 模板匹配**
- 14.5
(注:“**”为本文方法;“*”是已有方法在新数据集上的应用;无标识方法为对比方法,如TA-CNN[29]、Checkerboards[9]方法)
5.3 定性分析
图5为VOCperson2007数据集上部分检测效
第5期 李宗民,等:结合Faster RCNN和相似性度量的行人目标检测 907
果,可以看出图5(c)比图5(b)的检测效果要好,采用基于相似度匹配的后处理方法与硬阈值划分的方法相比,具有更少的漏检和误检问题。对于一
些具有较高分类得分的错误位置和较低得分的正确位置,通过优化后的筛选机制能够重新分类,一定程度上弥补了分类器不准确的问题。
(a) 原图(绿色框为真值)
(b) Faster RCNN+NMS+VGG的检测结果(红色框为位置,左上角为检测得分)
(c) 添加模板匹配之后的检测结果(红色框为位置,左上角为检测得分)
图5 VOCperson2007检测效果图
[4] GERONIMO D, LOPEZ A M, SAPPA A D, et al. Survey
of pedestrian detection for advanced driver assistance systems [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(7): 1239-1258.
[5] 张雅俊, 高陈强, 李佩, 等. 基于卷积神经网络的人流
量统计[J]. 重庆邮电大学学报: 自然科学版, 2017, 29(2): 265-271.
[6] ENZWEILER M, GAVRILA D. Monocular pedestrian
detection: survey and experiments [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(12): 2179-2195.
[7] 许言午, 曹先彬, 乔红. 行人检测系统研究新进展及关
键技术展望[J]. 电子学报, 2008, 36(5): 368-376.
[1] YAN J, ZHANG X, LEI Z, et al. Robust multi-resolution
pedestrian detection in traffic scenes [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2013: 3033-3040.
[2] 郭爱英, 徐美华, 冉峰, 等. 基于CS-SD的车载环境下
实时行人检测模型[J]. 交通运输工程学报, 2016, 16(6): 132-139.
[3] 叶国林, 孙韶媛, 高凯珺, 等. 基于加速区域卷积神经
网络的夜间行人检测研究[J]. 激光与光电子学进展, 2017, 54(8): 117-123.
[8] BENENSON R, OMRAN M, HOSANG J, et al. Ten years
of pedestrian detection, what have we learned? [C]// European Conference on Computer Vision. Berlin: Springer, 2014: 613-627.
[9] ZHANG S, BENENSON R, SCHIELE B. Filtered channel
features for pedestrian detection [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2015: 4. [10] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich
feature hierarchies for accurate object detection and semantic segmentation [C]//Proceedings of the IEEE
6 结 束 语
目前基于深度学习的行人检测技术有了突飞猛进的发展,检测精度和速度持续提高,但是对检测过程中的后处理方法探索不足,对生成的候选位置筛选不够精确,易造成误检和漏检。鉴于此,本文采用了基于特征相似度比较的模板匹配策略,从特征层面对候选区域进行深入分析和类别判断,进一步强化了候选区域筛选机制,有利于减少误检和漏检现象,提高了检测精度。
参 考 文 献
908 图像与视频处理 2018年
Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2014: 580-587.
[11] GIRSHICK R. Fast r-cnn [C]//Proceedings of the IEEE
International Conference on Computer Vision. New York: IEEE Press, 2015: 1440-1448.
[12] REN S, HE K, GIRSHICK R, et al. Faster R-CNN:
Towards real-time object detection with region proposal networks [J]. Advances in Neural Information Processing Systems, 2015, 39(6): 91-99.
[13] REDMON J, DIVVALA S, GIRSHICK R, et al. You only
look once: unified, real-time object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2016: 779-788.
[14] LIU W, ANGUELOV D, ERHAN D, et al. Ssd: Single
shot multibox detector [C]//European Conference on Computer Vision. Berlin: Springer, 2016: 21-37.
[15] LIN K, YANG H F, HSIAO J H, et al. Deep learning of
binary hash codes for fast image retrieval [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2015: 27-35.
[16] WANG N, YEUNG D Y. Learning a deep compact image
representation for visual tracking [EB/OL]. [2017-11-12]. http://www.docin.com/p-947214274.html.
[17] LONG J, SHELHAMER E, DARRELL T. Fully
convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2015: 3431-3440.
[18] HOSANG J, BENENSON R, DOLLÁR P, et al. What
makes for effective detection proposals? [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(4): 814-830.
[19] HOSANG J, BENENSON R, SCHIELE B. How good are
detection proposals, really? [EB/OL]. [2017-11-12]. http://cn.arxiv.org/abs/1406.6962.
[20] ZITNICK C L, DOLLÁR P. Edge boxes: locating object
proposals from edges [C]//European Conference on Computer Vision. Berlin: Springer, 2014: 391-405. [21] UIJLINGS J R R, VAN DE SANDE K E A, GEVERS T,
et al. Selective search for object recognition [J]. International Journal of Computer Vision, 2013, 104(2): 154-171.
[22] DOLLÁR P, TU Z, PERONA P, et al. Integral channel
features [EB/OL]. [2017-11-12]. https://www.researchgate. net/publication/221259850_Integral_Channel_Features. [23] FELZENSZWALB P F, GIRSHICK R B,
MCALLESTER D, et al. Object detection with discriminatively trained part-based models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[24] NEUBECK A, VAN GOOL L. Efficient non-maximum
suppression [C]//International Conference on Pattern Recognition. New York: IEEE Press, 2006: 850-855. [25] EVERINGHAM M, VAN GOOL L, WILLIAMS C K I,
et al. The Pascal visual object classes (VOC) challenge [J]. International Journal of Computer Vision, 2010, 88(2): 303-338.
[26] SIMONYAN K, ZISSERMAN A. Very deep
convolutional networks for large-scale image recognition [EB/OL]. [2017-11-12]. http://cn.arxiv.org/abs/ 1409.1556.
[27] DOLLÁR P, WOJEK C, SCHIELE B, et al. Pedestrian
detection: a benchmark [C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 304-311.
[28] ZEILER M D, FERGUS R. Visualizing and understanding
convolutional networks [C]//European Conference on Computer Vision. Berlin: Springer, 2014: 818-833. [29] TIAN Y, LUO P, WANG X, et al. Pedestrian detection
aided by deep learning semantic tasks [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2015: 5079-5087.
因篇幅问题不能全部显示,请点此查看更多更全内容