北京手机网站建设,网站开发网页设计游戏设计,网站建设订流量什么意思,下载京东网上商城Multimodal super-resolution reconstruction of infrared and visible images via deep learning
#xff08;基于深度学习的红外和可见光图像多模态超分辨率重建#xff09;
提出了一种基于编解码器结构的红外-可见光图像融合方法。图像融合任务被重新表述为保持红外-可见…Multimodal super-resolution reconstruction of infrared and visible images via deep learning
基于深度学习的红外和可见光图像多模态超分辨率重建
提出了一种基于编解码器结构的红外-可见光图像融合方法。图像融合任务被重新表述为保持红外-可见光图像的结构和强度比的问题。设计了相应的损失函数来扩大热目标与背景的权重差。此外针对传统网络映射函数不适用于自然场景的问题提出了一种基于回归网络的单幅图像超分辨率重建方法。该算法考虑了正向生成和反向回归模型通过双重映射约束缩小了不相关函数映射空间逼近理想场景数据。实验结果表明与现有方法相比该方法在视觉效果和客观评价方面均具有上级的性能。此外它可以稳定地提供与人类视觉观察一致的高分辨率重建结果同时弥合红外-可见光图像之间的分辨率差距。
介绍
图像融合技术旨在利用特定算法从多个源图像生成信息丰富的图像。红外与可见光图像融合技术由于能够将不同的信息进行融合在探测成像系统中起着举足轻重的作用。因此融合结果具有更清晰和完整的场景描述这有利于人的感知和机器处理。融合图像可以合成出具有源图像互补信息的新图像。最大限度地整合兴趣信息是揭示生物医学、森林消防和安全驾驶中的新见解和基本科学问题的基本瓶颈。例如通常通过应用多曝光融合MEF方法来生成高动态范围HDR图像。HDR成像方法可以提供更丰富的图像细节使重建图像更加清晰更符合人眼视觉观察的要求。基于这种方法红外和可见光融合算法可以综合各种信息的优点。一般来说红外图像缺乏纹理信息不能有效表征场景。但由于其固有的热辐射特性和在长波红外波段实现云层穿透成像的能力已得到广泛应用。相比之下可见光图像包含空间分辨率较高的纹理细节有利于增强目标识别能力符合人类视觉系统。但是可见光图像也有一个致命的缺点不可能在低照明条件下获得高质量的图像。可见光与红外成像相互依存、共同促进。 尽管图像融合技术有了显著的进步但由于软件算法和硬件技术的限制长波红外探测器的像素尺寸已经接近物理极限17 μm。同时随着成像分辨率的提高器件的制造成本也将急剧增加。因此现有的双波段图像融合技术不足以稳定实现全天候高分辨率成像。此时传统的超分辨率SR模型和算法已不再适用其计算复杂度给应用增加了大规模计算的压力。近年来深度学习Deep LearningDL以其突出的特征提取、表示能力、强鲁棒性和高效的重构性能成为图像融合领域的一项强有力的技术。从Deepmind公司研发的人工智能机器人到波士顿的强力机器狗令人鼓舞的消息接连传来。人工智能在我们身边产生了一个熟悉的词汇。这是智能机器逐步取代人工操作的显著表现。这种趋势是由对结合人工智能计算技术的多维传感器的出现的日益增长的需求驱动的。几十年来深度学习技术成为海量数据时代的研究热点。学术界和工业界都对该技术表现出浓厚的兴趣尤其是在计算机视觉方面。作为近年来兴起的一种“数据驱动“技术它在图像分类、目标检测]和识别等许多应用中取得了卓越的成就。如图1所示克服空间采样不足导致的像素化成像问题也是多图像超分辨率融合Multi-SR-Fusion技术的新奇。
相关工作
目前得益于DL卷积运算强大的特征提取能力和从海量数据中学习映射函数参数DL方法已经迅速演化为图像融合领域最具潜力的方向。传统的单帧图像SR 问题指的是从低分辨率(LR)图像恢复到高分辨率图像的过程不断挑战极限以获得更高的真实世界感知。在计算机视觉领域卷积神经网络(Convolutional Neural NetworksCNNs)的引入极大地推动了单幅图像SR技术的发展。研究人员通过引入残差模型、深度卷积结构和密集连通性结构来不断优化SR网络模型以增强重构性能。然而由于单幅图像SR问题的病态性现有的大多数方法在缩放因子较大的情况下会产生伪影甚至丢失细节纹理。因此如何准确地重建高频图像细节仍然是一个挑战。在基于DL的主要方法中有两种主流卷积神经网络CNN和生成逆网络GAN。针对这一具有挑战性的问题国内外学者提出了许多有代表性的研究成果。 在ICCV 2017上提出了一种经典的融合方法称为DeepFuse以解决曝光图像融合任务。在此基础上Li等人用稠密块代替前一部分的卷积网络进行改进。融合网络由编码器、融合层和解码器结构组成。考虑到融合后的特征与原始图像的相似性Zhang等提出的方法通过每层特征信息的连续反馈更好地关注图像特征的有效提取。随着GAN网络的快速发展学者们也将其应用于红外和可见光图像领域。Ma等人提出了一种基于细节保持学习的红外和可见光图像融合模型。在对抗网络生成框架下设计了细节损失和目标边缘增强损失的双重损失函数分别用于提高红外目标细节信息质量和锐化目标边缘。但该方法没有充分考虑红外和可见光图像的特点融合后的图像难以突出目标信息。根据红外-可见光成像的特点Li等人提出了一种具有多尺度注意机制的GAN网络。多尺度注意机制生成器聚焦于红外图像的目标信息和可见光图像的背景细节信息使得融合网络能够集中于源图像的特定区域重构融合图像。一般来说基于DL的方法不需要人工设计分解处理和融合规则就能得到满意的结果。但它们在保持背景信息的同时不能突出重要目标导致融合结果对比度较低。由于传感器的制造工艺、功耗或成本的限制红外图像的像素成像尚未得到充分解决。Zou等人利用编解码网络成功实现了红外图像的随机共振重构也验证了其在图像随机共振和特征提取方面的应用潜力。因此如果能够将SR结构加入到网络中则融合结果将得到可预见的改善。 Gatys等人提出了神经风格转移方法并首次将DL方法应用于风格转移任务。该网络通过内容损失约束保持两幅图像基本信息的一致性并通过反向传播迭代更新输入图像的风格。通过连续的前向传播计算损失和后向传播优化损失以及更新重建图像的像素值最终得到最优的重建图像。图像风格迁移的实质是两种不同风格图像的融合。从某种意义上说红外和可见光图像也可以看作是两个独立的“风格“图像。因此本方法利用神经元风格转换的概念来解决红外与可见光图像融合的问题。正如上面提到的,近年来,红外和可见光图像融合技术基于神经网络具有重要的研究前景。在红外和可见光图像融合的任务,仍面临以下问题: 1端到端成像数据集。DL重建算法基于多个数据集而可用于红外和可见光图像融合任务的数据集较少。如何利用现有数据实现网络训练模型是挑战之一。而最关键的一点是目前的融合网络没有考虑红外图像的分辨率输入的红外图像质量太差导致重建效果不理想。 2红外-可见光图像之间的分辨率差距。在红外-可见光融合的任务中一般来说红外探测器的分辨率一般会比可见光探测器差很多。因此能否通过映射函数来提高红外成像质量从而提高融合图像的质量也是本文研究的关键内容之一。 3网络架构。图像融合是计算机视觉中的底层任务网络结构应尽可能的轻量化。而如何充分发挥网络的能力权衡两幅图像之间的权重也是基本问题之一。 4损失功能。在网络训练过程中需要通过损失函数对网络训练参数进行修正这对损失函数的设计提出了更严格的要求。
方法
对于人类视觉系统来说包含重要目标的“显著区域“更具吸引力。基于以上分析红外-可见光图像融合的问题在于如何保持高频细节信息和热辐射信息从而实现多维数据融合过程。该方法的主要任务是提高红外图像的分辨率在获得高质量图像分辨率的同时对异源图像进行加权融合。因此如何有效地提取每幅图像的特征信息并分配融合权值是本文研究的重点。基于U-Net语义分割和风格传递的概念可以有效地分割红外图像的热辐射信息然后通过风格传递结构传递红外图像和可见纹理信息。在我们的工作流程中采用编解码融合结构进行端到端的学习如图2所示这样网络不仅可以围绕“显著区域“信息而且可以学习图像SR映射函数。 将图像融合问题转化为保持红外和可见光图像的结构和强度比的问题。设计了相应的损失函数扩大了热目标与背景之间的权重差异。针对传统网络映射函数在实际场景中存在不适定的不足嵌入逆回归的附加约束以减少可能映射函数的空间。最后通过扩展通道数实现了基于场景的伪彩色SR重建。通过这样做重建的图像更符合人类视觉效果。该方法以红外图像和可见光图像为输入图像通过端到端监督网络得到彩色融合图像。应用不同维数的核函数对红外和可见光图像进行多尺度特征提取。随后通过融合层生成红外和可见光融合图像。该融合结构包含多尺度特征提取和残差信道注意块RCAB支持有价值的特征映射抑制不重要的特征映射。编解码SR结构分别实现了特征提取和重构的功能。同时跳跃连接结构的引入可以将图像特征信息从网络的编码部分传递到解码部分解决了梯度消失的问题。
Problem formulation
为了更清晰地表达网络的映射关系可以将网络模型定义为
其中、、[ .]表示网络的非线性映射函数分别描述网络中的权值和偏差可训练参数1()描述输入的长波红外图像2()描述输入的可见光图像out()为网络输出的HR图像。详细的网络参数如表1所示。 网络结构包含卷积、反卷积、元素加法或乘法、通道融合、最大池化和元素最大层。层的输入图像由表示卷积层和去卷积层由表示 其中和分别表示滤波器和偏差。为方便起见* 表示卷积或反卷积。 对于元素相加层输出是相同大小的两个输入的相加然后是Leaky ReLU激活 其中 和分别表示i1层和j1层, 和 0.01。 对于元素乘法层输出是相同大小的两个元素的乘法然后是Leaky ReLU激活 对于通道融合层输出是相同大小的两个输入通道之和 对于最大池层输出图像大小是输入图像的一半其由以下公式表示 其中表示pooling函数本文采用max-pooling。 对于element-max层输出图像的大小与输入图像的大小相同其由以下公式表示 对于亚像素卷积层输出图像大小是输入图像大小的两倍其由以下公式表示
Loss function
权值分配是图像融合的核心问题直接决定了融合图像的质量。为了进行网络训练需要准确地评估融合图像与输入图像对之间的信息相似度以最小化信息损失从而有效地保留红外图像的热辐射信息和可见光图像的纹理细节信息。因此本文将图像融合问题转化为保持红外-可见光图像结构和强度比的问题。强度分布和梯度信息可以分别表征热辐射和结构信息。为了最大限度地保留源图像的代表性特征设计了一种混合损失函数来保留有价值的特征信息。因此我们提出的模型的损失函数被设置为 其中和分别表示输入LR和输出HR图像。1(()和2(())分别描述了正向回归和逆回归任务的损失函数。在训练过程中重建图像()不断收敛到相应的HR图像。类似地()在回归处理中连续逼近预测图像和先前输入LR图像之间的相似度。这里我们将混合损失函数的权重分布设置为0.1。 如果()是准确的HR图像则逆回归模型中的预测图像()应该与LR图像非常相似。在此约束下我们可以减少可能的映射函数从而实现鲁棒的图像重建。 ||·||2定义2范数▽表示梯度算子。α和β用于平衡两个损失函数α β 0.5。 这个公式是一种考虑SR的改进融合方法。**同时约束输入输出图像的正向生成过程和反向回归过程使双损失函数相互补偿达到整体损失函数平衡。**计算输入输出图像之间的混合损失以更新网络参数。通过最小化损失网络在训练阶段执行输入数据的精确重构强调有价值的信息并抑制不相关的信息。
网络架构
Multi-scale feature extraction (encoding) module
SR重建的基本部分是如何提取输入图像的特征。一方面假设可以获得不同维度的信息。在这种情况下将有助于信号恢复。另一方面通常通过卷积核来提取图像特征信息。因此提取卷积较大的图像以获得更广泛的感受野的想法一直在萌芽。较大的感受野将促进特征信息的接收。但如果卷积核过大计算量会急剧增加不利于模型深度的提升。因此我们可以将大尺度卷积分解为若干个小尺度卷积以减少计算量。尽管多尺度卷积块可以提取足够的特征但是选择性地集中于基本元素而忽略不太重要的元素也是至关重要的。这意味着并非所有特征都有利于重建。中间特征包含有价值的信息例如主要结构和细节或者甚至不相关的信息例如噪声。因此我们采用了不同核大小的多尺度层如3 × 3和5 × 5以获得不同感受野的低频和高频特征。通过这样做不同尺度的综合图像信息被提取并且彼此重用。特征融合卷积层实质上降低了计算复杂度提高了网络的收敛速度。因此引入多尺度提取模块有利于获得更高层次的鲁棒语义特征保留更多的底层细节丰富图像特征信息。
Super-resolution (decoding) module
SR网络采用编解码器结构。在解码层中采用像素混洗的方法扩大编码层中卷积层对应的特征图尺寸并通过跳跃连接的方式传递不同维度的信息。跳跃连接不仅传递了图像的特征信息而且缓解了梯度消失的问题。引入残差通道关注度模块对通道特征信息进行调整有利于重建HR图像。全局平均池层将所有空间特征编码为一个通道上的整体特征。接收到全局特征后通过全连接层学习各信道之间的非线性关系。整个操作可以看作是学习每个信道的权重系数以使模型对每个信道的特征更具区分性。 目前,主流网络体系结构模型是朝着更深的方向发展。更深一层的网络模型意味着它具有更好的非线性表达能力。因此,它可以学习更复杂的转换和输入适应更复杂的功能。然而一个常见的伴随的问题是信息提取的中间层并不充分。因此跳过残差结构连接是值得提高梯度传播和缓解梯度消失由于网络深化的问题。此外现有的方法只关注从LR的图像映射到HR的图像。然而不确定的可能映射空间在训练过程中是不稳定的和具有挑战性的。为了改善这一问题我们提出了一个SR结构中的双重回归方案如图3©所示。通过双重约束的约束提高了网络模型的鲁棒性和对自然场景的适用性。