ECCV2020 | 将投票机制引入自下而上现在标检测,整相符片面和全局新闻

原标题:ECCV2020 | 将投票机制引入自下而上现在标检测,整相符片面和全局新闻 博湖谚棘物业管理有限公司 本论文收录于ECCV2020,从自下而上的角度起程,在现在标检测义务中引入了投...


原标题:ECCV2020 | 将投票机制引入自下而上现在标检测,整相符片面和全局新闻

博湖谚棘物业管理有限公司

本论文收录于ECCV2020,从自下而上的角度起程,在现在标检测义务中引入了投票机制,使得HoughNet能够集成近距离和远距离的class-conditional evidence进走视觉识别。本论文解读始发于“AI算法修炼营”。

作者 | SFXiang

编辑 | 丛 末

论文地址:https://arxiv.org/pdf/2007.02355.pdf

代码地址:https://github.com/nerminsamet/houghnet

本文挑出了一栽基于anchor-free和投票voting机制的单阶段自底向上的现在标检测手段。受通用霍夫变换启发,HoughNet议定在某个位置上投票的总和来确定某个位置上某个现在标对象是否存在,同时根据对数极坐标投票机制,从近距离和远距离位置搜集选票。得好于这栽投票机制,HoughNet能够集成近距离和远距离的class-conditional evidence进走视觉识别,从而推广和添强了现在仅基于local evidence的物体检测手段。在COCO数据集上,HoughNet达到了46.4AP,在自下而上的现在标检测方面与最新技术性能相等,并且性能优于大无数主要的一阶段和两阶段手段。同时,在另一项义务(即议定将HoughNet的投票vote模块集成到两个分歧的GAN模型中,能够生成“照片标签”图像,并表现在两栽情况下实在性都得到了隐晦挑高。

1

简介

现在标检测算法除了能够分为经典的一阶段与两阶段两栽之外,还能够将现在手段分为两类:自顶向下和自底向上。在自上而下的手段中,将以矩形框的式样检测现在标,并基于这些框以团体手段展望现在标。设计倘若空间(例如anchor框的参数)本身就是一个题目。另一方面,在自下而上的手段中,现在标是议定检测片面组织(或子对象组织)而展现的。例如,在CornerNet 中,最先检测到现在标的左上角和右下角,然后再检测它们配对形成整个现在标。根据CornerNet,Extremenet [4将极端点(例如最左边等)和中心点进走分组以形成现在标对象。CenterNet 与CornerNet 的角点对添了中心点,将每个现在标对象建模为三元组。本文的HoughNet遵命自下而上的基于投票策略的手段:从普及的区域(包括short and long-range evidence)来投票获得object presence score。

现在最先辈的基于深度学习的现在标检测器(例如:RetinaNet、PANet)主要遵命自顶向入手段,议定矩形区域分类从团体上检测对象。Pre-deep-learning methods不是这栽情况。自下而上的手段是其中主要的钻研重点,例如基于投票vote的手段(隐式形状模型)和基于part的手段(可变形part模型)。但是,现在,在基于深度学习的现在标检测器中,尚未足够追求自下而上的手段。仅在比来,才挑出了一些自下而上的手段(例如CornerNet ,ExtremeNet)。

在本文中,挑出了一栽HoughNet,它是一栽基于anchor-free和投票voting机制的单阶段自底向上的现在标检测手段。Hough变换是一栽基于投票的手段,最初被用于检测分析例如线条,圆形,椭圆形等特征。而广义霍夫变换(GHT)用于检测肆意形状。相通地,在HoughNet中,属于某个类的对象在特定位置的存在由在该位置上投射的类条件投票的总和确定(图1)。HoughNet行使卷积神经网络处理输入图像以生成每个类别的中心分数map(intermediate score map ),这些map中的分数外示存在视觉组织,该视觉组织将声援检测现在标实例。这些组织能够是object parts、partial objects 、属于相通或其他类的片面,并将这些分数图命名为“视觉证据”图(“visual evidence” map)。视觉证据图中的每个空间位置都会对能够包含现在标对象的现在标区域进走投票。现在标区域是议定安放一个以对数极点网格( log-polar grid)为中心来确定的,其中心位于选民的位置。行使log-polar vote field的主意是随着投票者位置和现在标区域之间的距离增补而降矮投票的空间精度。这是受自然界的偏心视觉编制(foveated vision systems)启发的,空间分辨率从中心向周边敏捷降矮。议定投票处理一切“visual evidence”后,累积的投票将记录在对象所存在地图中,其中的峰值(即片面最大值)外示现在标实例的存在。

图1 :(左)HoughNet的示例“鼠标”检测(带有黄色边框)。(右)对该检测投票的位置。颜色外示投票强度。除了来自鼠标本身的片面投票外,还有来自“键盘”对象附近的高强度投票,这外明HoughNet能够行使短时和永远证据进走检测。

现在最先辈的物体检测器倚赖片面(或短距离)的visual evidence(如自上而下的手段)或主要的关键点如角点(如自下而上的手段)来决定该位置是否有物体。HoughNet能够议定投票来整相符短距离和长距离的视觉证据。图1是一个例子,被检测到的鼠标得到了两个键盘的投票,其中一个键盘就在图像的另一面。在COCO数据集上,HoughNet实现了与CenterNet相等的效果,同时也是检测器中速度最快的对象检测器。它的性能优于著名的单阶段检测器(RetinaNet)和两阶段检测器(Faster RCNN、Mask RCNN)。为了进一步展现本文手段的有效性,在另一个义务中行使了HoughNet的投票模块,即 "标签到照片 "的图像生成。详细来说,将投票模块集成到两个分歧的GAN模型(CycleGAN和Pix2Pix)中,效果外明,这两栽情况下的性能都有所挑高。

2

本文的手段:oughNet: the method and the models

本文的手段的整个处理流程如图2所示。输入图像最先议定骨干CNN,其主输出连接到三个分歧的分支:(i)进走视觉证据得分的展望, (ii)现在标的边界框尺寸(宽度和高度)展望,以及(iii)现在标的中心位置偏移展望。其中第一个分支是进走投票的地方。

1、The log-polar “vote field”

行使标准对数极坐标系中的区域集来定义搜集投票的区域。一个对数极坐标系是由偏心轴(或环)的数目和半径以及角度轴的数目来定义的,把这栽坐标系中形成的单元或区域集称为 "vote field"(图3)。在实验中,行使了分歧的vote ∆r(i)外示第i个像素的相对空间坐标。在下文中,R外示vote域中的区域数,Kr外示某一特定区域r中的像素数,Δr(i)外示相对于vote域中心的第i个像素的相对空间坐标。同时,将vote域行为一个固定权重(非学习型)的转置卷积来实现。

图3:在HoughNet的投票模块中行使的对数极坐标“vote field”。数字外示区域ID。vote field的参数是angle bins,eccentricity bins的数目和半径。在这个特定的投票区域中,一切有13个区域,6个angle bins和3个环。环的半径别离为2、8和16。

2、Voting module

输入的图像议定骨干网络和“visual evidence”分支后,HoughNet的投票模块将授与C个张量E1,新闻资讯E2,...,EC,它们的大幼别离为H×W×R,其中C是类别数,R是区域数。这些张量中的每个张量均包含类条件的(即针对特定类)“visual evidence”得分。投票模块的做事是生成C个“object presence”map,每个map的大幼为H×W。然后,这些图中的峰值将外示现在标实例的存在。

投票过程将visual evidence张量(例如Ec)转换为现在标存在map,其做事过程如下所述:倘若要在证据张量E的第i个走,第j个列和第三个通道上处理visual evidence。将投票字段安放在以位置(i,j)为中心的2D地图上时,区域标记要投票的现在标区域,可议定将坐标偏移量∆r(·)添到(i,j)来计算其坐标。然后,将视觉证据分数E(i,j,r)增补到现在标存在地图的现在标区域中,同时处理来自(i,j)以外位置的视觉证据分数,并在现在标存在图下累积分数。在算法1中正式定义了此过程,该过程以视觉证据张量行为输入并生成现在标存在图。仔细,由于for循环,单纯的算法1实现效果很矮,但是,行使“转置卷积”操作能够有效地实现它。

3、 Network architecture

骨干网络选用CenterNet,输出是尺寸为H×W×D的特征图,这是输入尺寸为4H×4W×3的图像的效果。骨干网络的输出被送到一切三个分支。每个分支具有一个3×3的卷积层,然后是ReLU层和另一个1×1卷积层。这些转换层的权重不在分支之间共享。Visual evidence分支输出的尺寸为H×W×C×R的特征图,其中C和R别离对答于类别数和投票字段区域数。宽度/高度展望分支输出H×W×2大幼的特征图,该输出展望每个能够的现在标中心的高度和宽度。末了,中心偏移分支可展望中心位置在空间轴上的相对位移。

亏损函数:为了优化visual evidence分支,行使了在CornerNet 中引入的修改后的Focal loss。为了恢复由于议定网络进走下采样操作而导致的中心点精度亏损,中心偏移展望分支会输出与现在标中心无关的位置偏移,并像其他自下而上的检测器相通,吾们行使L1 loss优化此分支。末了,宽度和高度展望分支遵命CenterNet 的提出议定将亏损缩放0.1来行使L1 loss。总亏损是每个分支所计算的亏损总和。

3

实验与效果

1、数据集: Mini COCO

为了在融化实验中更快地进走分析,本文创建了“ COCO mini train”行为经过统计验证的迷你训练集。它是COCO train2017数据集的子集,包含25K个图像(约占COCO train2017的20%数据量)和80个类别中约184K个样本。本文从全套样本中随机抽取这些图像,同时尽能够保留以下三个数目:(i)每个类别的对象实例所占的比例(ii)幼,中和大型物体的总体比例(iii)每个幼、中大型物体类别的比例。

2、融化实验

3、可视化实验

图4:HoughNet及其投票图的样本检测。在“检测”列中,表现了对感有趣的对象的切确检测,并标有黄色边框。在“投票者Voter”列中,表现了为检测投票的位置。颜色外示基于标准颜色图的投票强度,其中红色对答最高值,蓝色对答最矮值(见图1)。在最上面的一走中,有三个“鼠标”检测。在一切情况下,除了位置投票(在鼠标本身上)之外,还有来自附近“键盘”对象的重大投票。考虑到鼠标和键盘对象频繁同时展现,这栽投票手段是相符理的。在第二走的“棒球棒”、“棒球手套”和“网球拍”的检测中不都雅察到相通的走为。这些对象从迢遥的“球”对象中获得了重大的vote。同样,在第三走中,“花瓶”检测得到鲜花的凶猛声援。在底走的第一个示例中,“可餐桌”检测从蜡烛对象中获得了凶猛的声援,这能够是由于它们频繁同时发生。蜡烛不属于COCO数据集的80个类别。相通地,在底部走的第二个示例中,“餐桌”具有来自标准客厅的对象和片面的凶猛声援。在末了一个示例中,片面隐瞒的鸟从树枝上获得了较高的票数(强于鸟本身的票数)

4、迁移实验

更众细节可参考论文原文。

雇用

AI科技评论期待能够雇用科技编辑/记者别名

办公地点:北京

职务:以跟踪学术炎点、人物专访为主

做事内容:

1、关注学术周围炎点事件,并及时跟踪报道;

2、采访人造智能周围学者或研发人员;

3、参添各栽人造智能学术会议,并做会议内容报道。

请求:

1、亲喜欢人造智能学术钻研内容,拿手与学者或企业工程人员打交道;

2、有肯定的理工科背景,对人造智能技术有所晓畅者更佳;

3、英语能力强(做事内容涉及大量英文原料);

4、学习能力强,对人造智能前沿技术有肯定的晓畅,并能够逐渐形成本身的不都雅点。

感有趣者,可将简历发送到邮箱:jiangbaoshang@yanxishe.com

击"浏览原文",直达“ECCV 交流幼组”晓畅更众会议新闻。

【编者按】虽然移动服务尚未能兑现,但大众已经立志要成为一家软件驱动的企业。ID.3暴露的软件问题,证明大众的“软”实力与特斯拉仍有差距,大众任重道远。

原标题:人民海军的壮举:用3000吨的小船,拦截2万吨的巨舰

今年以来最强降雨过程、12个省市区……

肩负“服务国家大局、对标国际一流、聚焦先行先试”重任的中国(上海)自由贸易试验区临港新片区,近日来频频出台措施,其中都涉及到了两个关键词:开放和创新。

相关文章