网络结构
- 图像被缩放到最短边600像素,3通道
- 经过卷积网络(ZF模型、VGG16模型)。以ZF模型为例,每次卷积使用padding因此不改变图像尺寸,仅在pooling时长宽缩小一半,因此经过卷积网络后得到的Feature中,每个点对应原图16×16区域的信息
- Feature进行共享,RPNs和ROI Pooling均使用此信息,RPNs由此信息产生Region Proposal(RP)
- RP与Feature通过ROI Pooling后产生N个特征图
- 计算每个特征图的分类和边框
RPNs
接收到的尺寸为50x38x256的Feature,经过3x3x512卷积变为50x38x512,然后进入两个不同分支
- 分类网络,首先经过1x1x18卷积层【18=(前景/背景)两个分类x9个Anchor】,然后通过softmax选出前景区域
- 回归网络,首先经过1x1x36卷积层【36=(x,y偏移量+w,h缩放量)四个变量x9个Anchor】
汇总分类网络和回归网络的信息,得到RP
RP总数量为50x38x9个,去除背景项后数量小于17100个,经过nms=0.7后数量约为2000+,取TopN作为输出(在文章中,N=300效果最优)