Region Proposal Network

2022-10-20 14:36:03 浏览:835

RPN是广泛应用于目标追踪中的一种神经网络结构,用于生成候选区域(Region Proposal)。RPN是一个全卷积网络,经过端到端训练,可在每次检测时实现候选框的回归以及候选框的分类预测[1]。在早期的目标追踪方法中,候选框的生成需要大量的计算的成本,而RPN可以在很短的时间内完成候选框的生成,并且可以将RPN作为一个模块嵌入到目标追踪网络中实现候选框的快速生成[4]

RPN的由来

目标检测是计算机视觉的基石。它与图像识别和图像分割都相关。目标检测可以在图像或视频中定位对象,从而可以对其进行跟踪和计数,被广泛应用于面部检测,自动驾驶汽车,视频监控和异常检测等场景中。

Region Proposal Network

图1:Faster RCNN的结构示意图[1]

最流行的目标检测方法之一是由Ross Girshick等人在2014年开发的R-CNN系列,先是使用Fast R-CNN改进[2],然后是Faster R-CNN,其中的核心组成即为区域提议网络(RPN)[1]

RPN的主要组成

在目标追踪中,通常需要生成候选框并将这些框分类为猫/狗/人等追踪对象,即分类。同时,可以对候选框的形状进行调整以得到适合实际追踪对象的标注范围,即边界框回归。

Region Proposal Network

图2:RPN结构示意图[1]

RPN生成矩形框的过程主要包括以下三步:生成锚框(k anchor boxes);对每个锚框进行二分类,区分前景和背景(2k scores);对锚框的进行形状回归,以使其适合目标形状(4k coordinates)。

生成锚框

锚框是Faster R-CNN中最重要的概念,锚框是一组不同大小和比例的预定义边界框,这些边界框是RPN预测的目标位置时的参考,定义这些框是的目的为:通过产生比例和大小各异的锚框来尽可能准确地定位检测的目标,锚框的大小和比例通常是根据训练数据集中的目标大小选择的,且锚框通常位于滑动窗口的中心。
原始的锚框生成是基于3个不同的长宽比和3个不同的面积来生成的,即,一个滑动窗口的中心对应生成k=9个锚框,如果特征图的宽为W,高为H,则生成的锚框总数将为W * H * k。

Region Proposal Network

图2:锚框生成示意图

锚框的分类和偏移

在生成锚框之后,有的锚框区域是不包含实际感兴趣的目标对象的,并且,很多锚框中不存在任何物体。因此需要区分给定的锚框中区域是属于前景还是背景,与此同时,原始的锚框不一定是最适合目标对象的,因此需要预测包含前景的锚框偏移量以适合目标对象。 RPN通过卷积层来实现这两个目标,分别对应图2中的cls layer和reg layer。

Region Proposal Network

图3:RPN输入输出示意图[3]

RPN的输出有两个,一个输出对应reg layer的输出,输出内容为x,y,w,h值的偏移量,其中(x,y)是锚框的中心,w和h是锚框的宽度和高度,如上图所示,如果有9个锚框,则此分支的输出为4*9维的向量,一个锚框对应4个输出。

为了训练得到reg layer,在训练数据中,通过将锚框与标记框进行比较来进行参数训练,损失函数通常设计为Smooth L1损失函数。

另一个输出对应cls layer的输出,输出内容为锚框前景/背景的得分,如上图所示,如果有9个锚框,则此分支的输出为2*9维的向量,一个锚框对应2个输出。

通常采用交叉熵损失函数来对cls layer的卷积参数进行训练。

将偏移量将应用于分类为前景的锚框成为候选框生成(Region proposal),生成的候选框通过ROI池化操作和非极大值抑制(Non-maximum Suppression,NMS)进行进一步处理。

参考文献

[1] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015: 91-99.
[2] Girshick R. Fast r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1440-1448.
[3] https://towardsdatascience.com/region-proposal-network-a-detailed-view-1305c7875853
[4] Li B, Yan J, Wu W, et al. High performance visual tracking with siamese region proposal network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8971-8980.

目标跟踪

作          者: 泮桥成像光电商城

出          处: https://www.ipanqiao.com/entry/933

版          权:本文版权归泮桥成像光电商城所有

免责声明:本文中使用的部分文字内容与图片来自于网络,如有侵权,请联系作者进行删除。

转          载:欢迎转载,但必须保留上述声明;必须在文章中给出原文链接;否则必究法律责任。

Copyright © 2019-2022 南京超维景生物科技有限公司 版权所有 www.ipanqiao.com苏ICP备20009590号-1
联系我们
立即做合同
微信客服
电话咨询

400-998-9826

17302548620

快速留言

泮桥成像光电商城专业人员会在24小时之内联系您

关闭 提交