网站服务器备案查询网站备案,网站定制合同和模版的区别,wordpress主题c7v5 v2.0,在线观看的seo综合查询论文结构目录 一、之前的上采样器二、DySample概述三、不同上采样器比较四、整体架构五、设计过程#xff08;1#xff09;初步设计#xff08;2#xff09;第一次修改#xff08;3#xff09;第二次修改#xff08;4#xff09;第三次修改 六、DySample四种变体七、复… 论文结构目录 一、之前的上采样器二、DySample概述三、不同上采样器比较四、整体架构五、设计过程1初步设计2第一次修改3第二次修改4第三次修改 六、DySample四种变体七、复杂性分析八、定性可视化九、对比实验分析十、DySample代码分析 论文地址Liu_Learning_to_Upsample_by_Learning_to_Sample_ICCV_2023_paper.pdf 代码地址https://github.com/tiny-smart/dysample.git
一、之前的上采样器
随着动态网络的普及一些动态上采样器在几个任务上显示出巨大潜力。CARAFE通过动态卷积生成内容感知上采样核来对特征进行上采样。后续工作FADE和SAPA提出将高分辨率引导特征和低分辨率输入特征结合起来生成动态核以便上采样过程能够受到更高分辨率结构的引导。这些动态上采样器通常结构复杂推理时间成本高特别是对于FADE和SAPA高分辨率引导特征引入了更多的计算工作量并缩小了它们的应用范围。
二、DySample概述
DySample是一种快速、有效且通用的动态上采样器其主要概念是从点采样的角度来设计上采样过程而不是传统的基于内核的动态上采样方法。DySample通过生成上采样位置而非内核显著减少了计算资源的消耗并且不需要定制的CUDA包。与其他动态上采样器相比DySample在延迟latency、训练内存memory、训练时间training time、浮点运算次数GFLOPs和参数量parameters等方面表现出更高的效率。在本文测试DySample上采样模块的过程中首先从一个简单的实现开始然后通过不断调整公式和参数等逐步改进其性能。
三、不同上采样器比较 该图是对不同上采样器的性能、推理速度和 GFLOPs 进行比较。圆圈大小表示 GFLOPs 成本。 通过将大小为 256×120×120 的特征图进行×2 上采样来测试推理时间。在大型室内场景 ADE20K 数据集上使用 SegFormer-B1 模型。测试平均交并比mIoU性能和额外增加的 GFLOPs 。
四、整体架构
与近期基于内核的上采样器不同我们将上采样的本质理解为点重采样。在DySample中有着基于动态上采样和模块设计的采样过程。其中输入特征X 、上采样特征X‘ 、生成偏移量O原始采样网络G采样集S。
a图采样集S由采样点生成器生成通过网格采样函数对输入特征进行重新采样。 b图采样集S生成偏移量O原始采样网络G。 上框表示具有静态范围因子的版本其中偏移量通过线性层生成。下框描述具有动态范围因子的版本其中先生成一个范围因子然后用它来调制偏移量。σ表示 Sigmoid 函数。
五、设计过程
1初步设计
变量注释输入特征X 、上采样特征X‘ 、生成偏移量O原始网格G采样集S X ′ grid_sample ( X , S ) . (1) X \text{grid\_sample}(X, S).\tag{1} X′grid_sample(X,S).(1) O linear ( X ) , (2) O \text{linear}(X),\tag{2} Olinear(X),(2) S G O , (3) S G O,\tag{3} SGO,(3)
目标检测Faster R-CNN (DySample) : 37.9%的APFaster R-CNN (CARAFE)38.6%的AP 。语义分割SegFormer-B1 (DySample) 获得了41.9%的mIoUSegFormer-B1 (CARAFE) 42.8%的 mIoU。
2第一次修改
点和彩色掩码分别表示初始采样位置和偏移范围本次示例我们考虑采样四个点。 a在Nearest Initialization的情况下四个偏移量共享相同的初始位置这会导致初始采样位置分布不均匀b在Bilinear Initialization的情况下我们将初始位置分开使他们的初始采样位置分布均匀。
3第二次修改
我们发现当b在没有偏移调制的情况下偏移范围通常会重叠所以在c中我们局部约束偏移范围以减少重叠。 我们重写公式2通过不断实验确定静态范围因子为0.25时DySample达到最优效果 O 0.25 × linear ( X ) (4) O 0.25 \times \text{linear}(X) \tag{4} O0.25×linear(X)(4)
4第三次修改
然而乘以静态范围因子是重叠问题的一种软解法这种方法无法完全解决问题。
最终我们引入动态范围因子,重写公式4并且通过不断实验确定分组卷积个数为g4时DySample达到最优效果。 O 0.5 ⋅ sigmoid ( linear 1 ( X ) ) ⋅ linear 2 ( X ) (5) O 0.5 \cdot \text{sigmoid}(\text{linear}_1(X)) \cdot \text{linear}_2(X) \tag{5} O0.5⋅sigmoid(linear1(X))⋅linear2(X)(5) 通过第三次修改DySample应用在Faster R-CNN 和SegFormer-B1 的效果超过CARAFE。
六、DySample四种变体
DySample系列。根据范围因子的形式静态/动态和偏移生成样式LP/PL我们研究了四种变体
DySample具有静态范围因子的LP风格DySample具有动态范围因子的LP风格DySample-S具有静态范围因子的PL风格DySample-S具有动态范围因子的PL风格。
其中LP和PL即采样点生成器Sampling Point Generator中线性层和像素重排层的顺序:
七、复杂性分析 从图中可以就看出DySample在延迟latency、训练内存memory、训练时间training time、浮点运算次数GFLOPs和参数量parameters等方面表现出更高的效率。
需要注意的是
虽然LP所需的参数比PL多但前者更灵活内存占用更小推理速度更快S版本在参数和 GFLOPs 方面的成本更低但内存占用和延迟更大因为PL需要额外的存储。 版本也增加了一些计算量。
八、定性可视化 九、对比实验分析
此处仅展示目标检测领域该实验使用Faster R-CNN在MSCOCO数据集上进行对比实验 可以看出DySample版本在Backbone为R50和R101时均保持最优检测性能 十、DySample代码分析 上述代码就是公式5的具体实现 O 0.5 ⋅ sigmoid ( linear 1 ( X ) ) ⋅ linear 2 ( X ) (5) O 0.5 \cdot \text{sigmoid}(\text{linear}_1(X)) \cdot \text{linear}_2(X) \tag{5} O0.5⋅sigmoid(linear1(X))⋅linear2(X)(5)
style 参数定义了上采样的风格LP/PLgroups 参数用于分组卷积g的个数dyscope 参数是用于确定是否使用动态范围因子此代码代表默认的第一种DySample
在Ultralytics封装的YOLO系列中DySample部署模块时的task.py如下图所示