作者 | VincentLee
来源 | 晓飞的算法工程笔记(ID: gh_084c810bc839)
导读:论文提出Cascade RPN算法来提升RPN模块的性能,该算法重点解决了RPN在迭代时anchor和feature不对齐的问题,论文创新点足,效果也很惊艳,相对于原始的RPN提升13.4%AR。论文地址:https://arxiv.org/abs/1909.06720
代码地址:https://github.com/thangvubk/Cascade-RPN
论文重点强调对齐规则,即图片特征和anchor必须是一致的。如图1a所示,由于RPN的anchor是均匀分布的,其方差十分大,难以学习,需要进行迭代回归。但RPN没有类似RoIPool或RoIAlign的手段进行特征对齐,因为RPN的输入很多,性能十分重要,只能进行常规的滑动卷积进行输出,这就造成了anchor和feature的对称问题。如图2b,可以看到Iterative RPN的收益是微乎其微的,这是由于在iterative RPN中,stage2的anchor与其特征不对齐(依然均匀地卷积),如图1c,stage2的输入anchor精调了,但是stage2卷积时使用的特征区域还是精调之前的
论文提出Cascade RPN来系统地解决前面提到的问题,算法主要有两个特点:
Cascade RPN使用单anchor,并且结合anchor-based和anchor-free的准则来进行正样本的判定
为了获得多stage精调的好处并且保持特征和anchor对齐,Cascade RPN使用自适应卷积来精调每个stage的anchor,自适应卷积可以当作是个轻量级的RoI Align层
区域提案网络和变体
文中简单介绍了RPN的概念,如图1a,通过卷积回归当前anchor与GT间的差值来进行精调,相信大家都比较了解了,这里就不再赘述了
迭代RPN和变体
Iterative RPN的架构如图2b所示,通过迭代回归得出不同stage的差值,然后按顺序对anchor进行精调。从结构来看,如上所述,这样的方法收益是微乎其微的,因为其特征与anchor是不对齐的为了缓解对齐问题,一些研究使用可变形卷积来进行特征图上的空间变换,希望能使得精调后的anchor与变换后的特征对齐,如图2cd。但是这种方法并没有严格的约束去保证特征与变换后的anchor对齐,也很难确定变换后的特征和anchor是否对齐了Cascade RPN
Adaptive Convolution
- Sample Discrimination Metrics
- Cascade RPN
- Learning
实验
实验设置
实验的模型以ResNet50-FPN作为主干,每个特征level使用的尺寸为,,,,。FPN采用two-stage,第一阶段使用anchor-free标准,center-region和ignore-region分别为0.2和0.5,第二阶段使用anchor-based标准,IoU阈值为0.7。multi-task loss的stage-wise权重,平衡权重,NMS阈值为0.8。实验将图片等比缩放为,不使用其余数据增强手段,在8GPU上用SGD训练12个epoch,batch 16,初始学习率为0.02,8周期和11周期降低10倍。RPN的性能用AR来衡量,最终的检测结果则以AP进行衡量Benchmarking结果
Region Proposal Performance.Table1展示了Cascade RPN与state-of-the-art的RPN研究对比,其中Sharp Mask,GCN-NS,AttractionNet,ZIP结果直接从原文里获取,其余用mmdetection复现。Cascade RPN比原始的RPN提升了13.4%AR,由于遵守了对齐规则,Cascade RPN比其它的方法性能都要优异Detection Performance.Table2展示了集成进two-stage检测器后的整体性能表现,Fast RCNN使用预先计算的anchor进行训练,而Faster RCNN则是end-to-end的。直接替换RPN的实验结果只有很小收益,需要修改一下实验参数,设定IoU阈值为0.65,只取top300 anchor。从结果看来,top300时在两个框架下分别提升了3.5%mAP和3.7%mAP消融研究
Component-wise Analysis. 为了进一步了解Cascade RPN性能,进行了component-wise的实验。baseline是anchors为3的RPN,为58.3,当anchor为1时,降到55.8,意味着正样本的大幅减少。而当使用自适应卷积使用时,性能提升为67.8,这意味着对齐在多阶段精调的重要性。混合anchor-free和anchor-based准则带来了0.8%的提升,使用回归统计(对回归差值进行归一化)带来2.9%AR收益,IoU loss带来0.2%的提升Acquisition of Alignment. 为了研究自适应卷积的性能,进行了Table4实验。从结果可以看出,当仅使用中心偏移时,提升6.1%AR,而当使用中心和形状偏移时,性能达到67.8%Sample Discrimination Metrics. Table5展示了采用标准的性能测试,从结果看来,单独使用anchor-free或anchor-based标准是不完美的,同时使用能带来很好的效果Qualitative Evaluation. 图4的第一和第二行图片为stage1的结果,第三行为stage2的结果,可以看到,stage2的结果要好点Number of Stages. Table6展示了stage数量对结果的影响,可以看到2-stage和3-stage性能几乎一样,2-stage是个不错的选择Extension with Cascade R-CNN. 在Cascade R-CNN上,Cascade RPN能提升0.8%AP结论论文提出优化版的Cascade RPN,该架构能够有效地解决RPN中anchor和feature的对齐问题,相对于原始的RPN,能提升13.4%AR,是个很不错的架构。
(*本文为AI科技大本营转载文章,转载请联系原作者)
◆
精彩推荐
◆
人工智能数学基础系列公开课通过人工智能热点问题开始,引出其中蕴涵的数学原理,然后构建解决实际问题的数学模型和方法,兼具趣味性与实用性。
1月16日晚8:00, 哈工大屈教授在线直播课---『看得见 』的数学,带大家解密计算机视觉背后的数学知识!
点击阅读原文,或扫描海报二维码免费报名
加入公开课福利群,每周还有精选学习资料、技术图书等福利发送、60+公开课免费学习
推荐阅读
你点的每个“在看”,我都认真当成了AI