【综述-遥感图像】

Panchromatic and multispectral image fusion for remote sensing and earth observation: Concepts, taxonomy, literature review, evaluation methodologies and challenges ahead

（遥感和地球观测的全色和多光谱图像融合：概念、分类、文献审查、评价方法和今后的挑战-----2023）

全色和多光谱图像融合（Panchromatic and multi-spectral image fusion，Pan sharping）是将源图像的空间和光谱信息融合成一幅融合图像，该融合图像具有比任何源图像更高的空间和光谱分辨率，对下游任务更可靠。它已广泛应用于各种应用的图像解释和预处理。为了通过考虑全色和多光谱图像之间的空间和光谱关系来获得更好的融合结果，已经提出了大量的方法。近年来，人工智能（AI）和深度学习（DL）的快速发展显著促进了全色锐化技术的发展。然而，该领域缺乏对AI和DL兴起所推动的最新进展的全面概述。本文提供了对采用四种不同范例的各种全色锐化方法的全面综述，即：组件替换、多分辨率分析、退化模型和深度神经网络。作为全色锐化的一个重要方面，本文还概述了融合图像的评价，从降分辨率和全分辨率两个方面给出了各种评价方法。然后，我们通过讨论全色锐化技术、数据集和质量评估的现有局限性、困难和挑战来结束本文。此外，调查总结了这些领域的发展趋势，为研究人员和专业人员提供了有用的方法论实践。最后，在结论部分总结了全色锐化的发展。调查的目的是作为新来者的参考起点，并围绕这一令人兴奋的领域应遵循的研究方向达成共识。

介绍

随着遥感技术的飞速发展，越来越多的卫星发射升空，各种成像传感器采集了大量的遥感图像。这些遥感图像以不同的观测方式记录了地球的信息，为观测景象的解译提供了丰富的数据。迄今为止，这些图像已广泛应用于资源勘探、环境调查、战场侦察等诸多领域，并取得了巨大成功。
空间分辨率和光谱分辨率作为遥感图像的两个重要属性，对观测场景的解译精度有着重要影响。虽然遥感图像的空间分辨率和光谱分辨率不断提高，但这些图像不能同时获得高的空间分辨率和光谱分辨率。这是由成像传感器的空间分辨率和光谱分辨率之间的固有折衷引起的。
在成像系统中，可以通过增加带的数目和减小带的宽度来提高光谱分辨率。但当入射光能量一定时，窄带接收到的能量会减少，从而导致遥感图像的信噪比下降。在这种情况下，为了满足特定的信噪比，一种选择是改进光感测单元的尺寸。结果，这些图像的空间分辨率将降低。另一方面，空间分辨率主要取决于成像传感器上感光单元的密度。通过减小感光单元的尺寸，可以提高空间分辨率。然而，感光单元的高密度意味着成像传感器的制造成本和难度的提高。
在固有的约束下，全色图像可以提供高的空间分辨率。但它只由一个波段组成。多光谱（MS）图像具有多个光谱波段，包含丰富的光谱信息。MS图像的空间细节不如PAN图像。图1显示了来自不同卫星的一些MS和PAN图像对。
我们可以发现PAN图像比MS图像更清晰。但前者是灰度图像。此外，表1列出了一些光学卫星的空间和光谱分辨率，这些卫星可以同时捕获PAN和MS图像。在表1中，空间分辨率以米为单位。可以看出，MS图像的光谱分辨率高于PAN图像的光谱分辨率。相反，PAN图像在空间分辨率方面上级MS图像。PAN和MS图像分别显示了观测场景的空间和光谱特性。

显然，下游任务，例如目标检测和分类，不能仅仅通过使用PAN或MS图像来有效地实现。因为缺乏高的空间或光谱分辨率限制了所观察场景的解释精度。为了实现下游任务所需的精度，对具有高空间和光谱分辨率的遥感图像的需求日益增加。因此，提高遥感图像的空间分辨率和光谱分辨率对提高对地观测精度至关重要。
为此，人们采用图像融合的方法，将不同类型图像中的互补信息进行融合，以更全面地描述观测场景。2006年，IEEE地球科学与遥感学会（GRSS）开始组织数据融合竞赛，以推动该领域的发展。截至目前，数据融合大赛已成功举办17届。在GRSS中有许多不同的融合任务来利用多源、多模态遥感数据。例如，合成孔径雷达与光学遥感图像融合探索观测场景的物理属性和表面特征，在目标识别方面显示出巨大潜力。对于高光谱图像与光探测测距融合，将光谱特征与距离信息相结合，有效提高语义分割的准确性。与高光谱图像相比，光探测和测距具有强烈的非均匀性，因此需要考虑精细的组合方案。多时相融合利用多传感器图像的时间序列，通过引入时间变量将MS或超光谱图像从3D立方体扩展到4D数据。它能够捕获短时间或长时间序列中的变化信息。在时空融合任务中，通过将低空间分辨率但高时间分辨率的影像与高空间分辨率但低时间分辨率的影像进行融合，可以生成高空间和时间分辨率的影像，从而可以提供区域变化的连续监测。近年来，为了获得高空间分辨率的高光谱影像，MS/PAN与高光谱影像的融合引起了人们的广泛关注，丰富了高光谱影像中的空间信息。通过上述模型，融合后的图像比单个传感器获取的图像能更全面地反映观测场景的丰富属性。
在这些整合不同图像互补信息的任务中，我们特别关注PAN和MS图像的融合，也称为全色锐化。通常，如图2所示，图像融合可以分为四个层次：传感器/像素级、特征级、置信度级和决策级。

传感器/像元级融合直接融合低空间分辨率多光谱图像（LR MS）和PAN图像中的原始像元信息，旨在生成具有高空间和光谱分辨率的融合图像。传感器级/像素级融合也可以看作是LRMS和PAN图像的一种预处理方法，它可以提高图像的分辨率，更准确地描述观测场景。在特征级融合中，提取LR MS和PAN图像中物体的特征。然后，将这些特征组合起来用于对观察到的场景中的对象进行分类或检测。对于置信度融合，融合了置信度评分而不是LR MS和PAN图像的决策结果。然后，从融合后的置信度得到最终的决策结果。决策级融合将来自LR MS和PAN图像的决策结果（如对象的标签或位置）组合起来以产生最终决策，其中采用投票、统计和模糊逻辑方案来融合这些结果。近年来，由于人工智能的发展，传感器/像素级图像融合得到了很大的发展。近年来，MS和PAN图像的传感器/像素级融合技术有了新的发展和趋势。因此，本文主要研究传感器/像素级融合技术，将PAN图像中精细的空间细节和MS图像中丰富的光谱信息融合在一起。在全色锐化之后，最终生成高空间分辨率（HR）MS图像。
全色锐化的概念和益处在图3中示出。
融合后的高分辨质谱图像具有较高的空间分辨率和光谱分辨率，有助于对观测场景进行有效的解译。例如，Rayegani等人将融合后的图像应用于自然生态系统的变化检测，设计了空间和光谱两个指标来选择合适的融合方法。Lottering等人使用WorldView-2全色锐化图像中的丰富纹理信息。该方法利用人工神经网络对融合图像进行植被落叶推断。Qu等人使用融合图像进行异常检测，结果表明这些图像提高了准确度。具体而言，LR MS图像的原始检测率为0.3，通过使用融合图像将检测率提高到0.9。Du等人比较了LR MS图像和融合图像之间的变化检测性能。实验结果表明，对融合图像进行变化检测后，Kappa系数提高了0.2，总体准确率提高了10%。
在过去的几十年里，许多全色锐化方法被提出，它们都能产生令人满意的结果和令人印象深刻的性能。通常，这些全色锐化方法可以被分类为四类：组件替换（CS）方法、多分辨率分析（MRA）方法、基于退化模型（DM）的方法和基于深度神经网络（DNN）的方法。近年来，离散神经网络的兴起为融合图像质量的提高带来了新的机遇，基于离散神经网络的全色锐化方法已经产生了最先进的融合结果。
基于DNN的全色锐化方法的成功得益于其强大的学习能力和大量的训练数据集。然而，对于全色锐化任务，必须根据Wald协议精心准备训练数据集。由于DNN是在人工降低分辨率的数据上训练的，它们在全分辨率数据上不能达到预期的效果。源图像和融合图像之间的映射是如此复杂，以至于在降低分辨率数据上学习的DNNs不能推广到全分辨率数据。除此之外，降分辨率训练数据的稀缺性和复杂构造促使一些DNNs利用全分辨率数据进行训练。
现有的综述主要对基于CS和多分辨率分析的全色锐化方法进行了详细的总结，而忽略了其他两个领域的研究进展，如基于数据挖掘和动态神经网络的融合方法。例如Thomas等人从遥感物理学的角度对基于CS和MRA的方法进行了综述。Vivone等人对来自不同卫星的数据集的不同基于CS和MRA的方法进行了关键和广泛的比较，这促进了许多可用全色锐化代码的标准化实施。Vivone等人在之前的基础上进一步对全色锐化进行了概述。除了对全色锐化的回顾外，Meng等人还向社区发布了一个大规模数据集，提高了HR遥感图像的可用性。然而，这些调查大多没有涉及基于DM和DNN的方法的分类，也没有对泛锐化方法的公式进行深入分析。
此外，本文还对融合图像的评价方法进行了总结，以更全面地反映这一领域。目前，在视觉上区分不同的基于DNN的全色锐化方法的融合图像变得越来越困难。一方面，作为全色锐化任务的一个重要组成部分，融合图像的评价为DNNs的选择提供了依据。近年来，人们提出了一些新的评价指标和工具来计算融合图像与参考图像之间的相似度，或者在无参考的情况下评价融合图像的空间和光谱特征。缩小评价指标与视觉表现之间差距。遗憾的是，在上述综述中没有讨论评价指标的分析。另一方面，融合图像的质量应该在下游任务中进一步评估，因为全色锐化仅仅是解释观察到的场景中的预处理步骤。因此，比较同一任务对不同全色锐化方法生成的融合图像的判读性能将更有意义。我们坚信，只有面向任务的融合图像性能评估才能促进全色锐化方法的实用化进程。
在这篇文章中，我们分析了大约220篇关于全色锐化的论文，并为科学读者提供了最先进的全色锐化方法，特别是基于DM和DNN的方法的全面综述。同时，本文的目的是为融合图像的质量评价提供有价值的见解。最后，针对资料集、评估和未来趋势进行了专门讨论，以通过了解该领域的局限性、困难和挑战来支持相关研究人员。

Taxonomy of pan-sharpening methods

Notions

为方便起见，表2列出了符号及其相应的描述，其中标量用小写斜体表示，向量用粗体小写字母表示，矩阵用粗体大写字母表示。在基于DM的方法中，通常通过图像分割和矢量化或其他预处理方法将源图像和融合图像重新排列成矩阵，以匹配空间和光谱退化模型。对于以下部分中使用的其他首字母缩写词和符号，将根据需要定义。

Taxonomy

考虑到所有的评论论文，我们把全色锐化方法分为一个层次的类。图4展示了为全色锐化提出的方法的层次分类。在层次结构中，这些方法通常可分为四类：基于CS的方法、基于MRA的方法、基于DM的方法和基于DNN的方法。
对于基于CS的方法，假设MS图像中的空间和光谱信息是可分离的，使得上采样的LR MS图像中的空间分量可以直接由相应的PAN图像代替。该方法首先将上采样后的LRMS图像通过适当的变换投影到一个新的空间，产生一个空间分量。然后，用直方图匹配的PAN图像完全或部分地替代空间分量。最后，通过相应的逆变换生成融合的HR MS图像。在该类别中，存在一些经典和常见的变换，例如强度色调饱和度（IHS）变换、主成分分析（PCA）和Gram-Schmidt（GS）变换。
对于基于MRA的方法，假设LR MS图像中缺失的空间细节可以从PAN图像推断。然后，采用一些有效的工具，如MRA，从PAN图像中提取空间细节，也称为高频。然后，通过一定的融合规则将这些细节信息注入到LRMS图像中。各种MRA工具为研究人员提供了不同的选择，以专门对PAN和LR MS图像中的空间信息进行建模。基于MRA的成功，一些类似MRA的方法被开发用于全色锐化，包括支持值变换、支持张量变换和形态滤波器。
在基于退化模型中，LR MS和PAN图像分别被认为是HR MS图像在空间域和光谱域的退化结果。然后，将全色锐化任务视为图像恢复问题。自然地，融合图像通过求解从空间和光谱退化模型导出的逆问题来估计。由于退化模型的病态性，利用源图像或高分辨率质谱图像中存在的先验知识对解空间进行正则化。绝大多数基于DM的全色锐化方法利用不同形式的稀疏性来生成融合结果。此外，由于梯度先验和低秩先验在低级计算机视觉任务（例如图像超分辨率和去噪）中的成功，因此在全色锐化任务中也考虑它们。
最近，由于非线性学习的强大能力，基于DNN的全色锐化方法得到了普及。利用计算机视觉任务中的成功经验，采用了大量的DNN，并以监督方式进行训练以进行全色锐化。一方面，监督学习使得基于DNN的方法优于上述三种方法。另一方面，出色的性能得益于海量数据和更强大的计算能力。随着生成对抗网络和transformer等多种DNN的涌现，人们对提高融合性能、满足真实的场景中的高灵活性和可行性产生了浓厚的兴趣。然而，由于网络类型呈指数增长，因此难以根据其网络类型对基于DNN的方法进行分类。然而，由于网络类型呈指数增长，因此难以根据其网络类型对基于DNN的方法进行分类。与大多数低层次任务相比，全色锐化最显著的区别因素是其双源输入。考虑到LR MS和PAN图像中的双源信息组合的阶段和模式，基于DNN的全色锐化方法可以被分组为三个子类：源图像拼接（SIC）、特征拼接（FC）和特征融合（FF）。
为了避免过度划分，每种全色锐化方法都根据其与其余对应方法不同的特征进行分类。通过这种方式，将防止混乱的分类，并且图4中描述的分类变得更有意义和信息更丰富。

CS-based methods

在这一部分，我们详细介绍了基于CS的全色锐化方法。技术的关键在于从LR MS图像中精确地估计空间分量。然而，由于LRMS图像中空间和光谱信息的高度不可分离性，很难合成与相应PAN图像匹配良好的空间分量。此外，LR MS和PAN图像之间在光谱范围方面的不匹配不能被忽略。图5显示了来自不同卫星的MS和PAN图像的光谱响应范围。
可以看出，MS图像的光谱范围不能精确地覆盖PAN图像的光谱范围，这将不可避免地将光谱失真引入到融合图像中。因此，光谱响应范围和空间分量的合成问题是基于CS方法减小光谱失真的关键。
与其他方法相比，基于CS的方法在增强融合图像的空间细节方面表现良好。它们的特点是操作简单，易于实施。虽然这些方法与其他类型的方法（如基于DM和基于DNN的方法）相比并不具有竞争力，但它们的简单性和有效性仍然使它们值得进一步研究并对研究人员具有吸引力。
在数学上，Vivone等人总结了基于CS的全色锐化方法，并且通常可以写为：
其中，~𝐏 是通过特定变换从LR MS图像中获得的空间分量。 𝑔_𝑏 是LR MS图像第b个波段的注入系数。在方程式(1)，~𝐏可以通过一些变换合成。一般形式的合成 ~𝐏定义为：
其中，𝑤_𝑏是对应于~𝐋 _𝑏的权重。显然，所采用的变换和注入增益是影响CS方法融合性能的两个关键因素。根据所采用的转换，该类别中的方法可分为四个子类：IHS 、PCA 、GS 和频带相关空间细节（BDSD）。这些方法的概述如下。
IHS： 这类方法使用IHS来产生LR MS图像的强度分量，然后用PAN图像来代替。在IHS中，强度分量通过对LR MS图像中的所有波段求平均值来获得，这意味着𝑤_𝑏公式(2)对于每个频带是1/3。不幸的是，尽管强度分量的合成是直接的，MS图像通常由4或8个谱带组成。因此，如果变换只能处理3波段的MS图像，这种方法将面临严重的局限性。为了拓宽IHS的应用范围，Tu等人考虑到植被覆盖区域在近红外波段的高反射率，将红光和近红外波段的权重均设置为1/3。绿色波段和蓝波段的权重由它们的光谱响应范围决定，光谱响应范围被设置为𝑎/3和𝑏/3。对于a和b，𝑎+𝑏= 1。在上述两种情况下，𝐏和~𝐏之间的差直接与上采样图像相结合 ~𝐋 _𝑏，因此对于每个频带注入增益为1。
与不依赖于图像内容的注入增益相比，注入增益的自适应估计将减轻融合图像中的光谱失真。例如，Rahmani等人提出了一种自适应IHS（AIHS）方法，其中𝐏通过波段~𝐋 _𝑏的组合进行近似计算权重，并根据导出的边缘图计算所有波段的注入增益𝐏。随后，提出了一种改进的自适应IHS（IAIHS）方法，其中每个波段的注入增益𝑔_𝑏由来自𝐏和 ~𝐋 _𝑏的边缘图联合确定。因此，这种方法可以在融合图像中更好地保留光谱信息。Ghahremani等人在AIHS和IAIHS的基础上提出了非线性IHS，其中空间分量~𝐏被局部合成。

PCA： PCA 是基于CS的全色锐化方法中经常使用的另一种经典变换。根据主成分分析公式，第一主成分（1st PC）的方差在所有主成分中最大。这表明第一PC包含最多信息，因此第一PC被视为LR MS图像的空间分量。具体地，LR MS图像的第一PC被选择并由PAN图像替代，该PAN图像与IHS生成的强度分量不同。尽管第一PC包括丰富的空间细节，但这并不意味着第一PC与PAN图像最相似。从这个意义上讲，Yang等人采用自适应PCA方法寻找与PAN图像最相似的PC，用相关系数来衡量PCs与PAN图像的相似性。Shahdoosti等人将空间主成分分析和谱主成分分析结合以推断更相似的空间分量。此外，Kim等人还考虑了空间主成分分析，并将其间接应用于的空间细节𝐏。为了提取𝐏中合理的空间细节。随后，Duran等人还采用PCA进行全色锐化，并根据PAN图像中的结构对彩色分量进行条件滤波，通过非局部优化调整注入增益。
GS： GS也是用于全色锐化的常见变换。基于合成的空间分量~𝐏，GS被设计用于从上采样的LR MS图像获得正交矢量。在GS的投影之后，所有分量是两两正交的。然后， ~𝐏用PAN图像替换空间分量。最后对新分量进行逆变换得到融合图像。很明显，在融合图像的重建过程中， ~𝐏的产生起着重要的作用。Aiazzi等人通过最小化均方误差来获得生成的最佳权重 ~𝐏。Wang等人考虑了粒子群优化算法，以最小化不可微函数，并实现自适应权重。实际上，研究人员可以有多种方法来估计组合权重。然而，正交投影的不灵活性限制了基于GS方法的改进空间。因此，基于GS的方法的变体数量比其他类型变换的变体数量少。
BDSD： 根据前三个子类，我们可以看到，内容相关的权重导致融合图像的光谱失真较小。在这种情况下，BDSD进一步扩展了公式(1)中的一般公式。在BDSD中，每个波段的权重~𝐋 _𝑏通过最小二乘准则从相应的降采样PAN和MS图像中自适应地估计。与全局计算策略相比，由于不同目标的光谱响应方面的差异，使用从局部区域估计的权重将具有更高的近似精度。此外，考虑图像内容的分割策略在频谱失真方面比直接将图像分割成块的方法具有更好的性能。
基于这一思想，提出了BDSD的许多变体。例如，Garzelli进一步提出了一个改进版本CBDSD来处理空间一致性的保持，它利用K均值聚类来找到更一致的区域。在C-BDSD中，将PAN图像的强度和局部标准差作为聚类特征。通过Gabor滤波器组提取空间特征，然后使用模糊c均值算法实现聚类。此外，Imani 还建立了一种基于BDSD的改进方法CR-BDSD，该方法使用了~𝐋 _𝑏的协同表示代替了~𝐋 _𝑏，有效地平滑了~𝐋 _𝑏中的空间细节。最近，Vivone提出了三种基于BDSD的鲁棒融合方法，其中将离群值去除、双平方回归和物理约束与目标函数相结合以处理不同的情况。

MRA-based methods

尽管基于CS的方法已经被广泛研究并应用于观测场景的各种解释任务中，但这些方法融合结果中的光谱失真仍然是难以忽视的。其原因是LR MS图像的空间分量直接由PAN图像替换。可行的解决方案是仅将所需的空间细节注入LR MS图像。在这种情况下，MRA进入了对源图像空间细节建模的全色锐化研究的视野。在基于MRA的方法中，只有来自PAN图像的空间细节被注入到LR MS图像中，因此它们在保留光谱信息方面表现得更好。
总之，基于MRA的方法的公式定义为：
其中是^𝐏的低频𝐏。可以观察到，该类别的融合性能还受到高频的提取和注入增益的估计的影响𝑔_𝑏。
由于可用的MRA工具的多样性，许多有效的全色锐化方法被提出。在表3中，我们列出了基于MRA的代表性全色锐化方法，其中简要描述了高频提取工具和增益的先验。这些方法可以根据所采用的工具是否来自MRA来表征。基于MRA方法直接利用现有的工具来提取源图像的空间细节。MRA的灵感来自于框架的方法,称为MRA-like同行。以下部分的代表为每个子类的方法。
MRA： 如上所述，MRA具有对源图像中的高频建模的巨大容量。基于MRA的全色锐化方法的发展伴随着不同建模工具的出现。有几种典型的用于提取空间细节的工具，包括广义拉普拉斯金字塔（GLP）、小波、Contourlet、Curvelet、Framelet和Shearlet。在表3中，我们列出了一些基于这些工具的全色锐化方法。
为了有效地逼近图像在不同尺度下的空间信息，对金字塔分解模型进行了深入的研究。例如，拉普拉斯金字塔（LP）被扩展到GLP以用于全色锐化。Vivone等人采用GLP进行高频浸提，通过回归在满标度下调整注入增益，可以避免不同标度下注入系数的差异。在GLP框架内，许多研究人员将注意力转向注入系数的有效计算。小波作为一种经典的磁共振成像工具也得到了研究。Otazu等人将观测场景的光谱响应和物理特性引入到基于小波的方法中，可以产生更好的融合结果。然后，Vivone等人进一步重新研究了AWLP，以获得可重现的结果。与其他基于MRA的方法的改进类似，利用MS图像波段之间的固有特性开发了更高级的基于小波的变体并产生更好的融合结果。
一波全色锐化方法是在更先进的MRA工具的实力超过小波。Shah等人使用非下采样轮廓波来增强融合图像中的空间信息。此外，非下采样轮廓波还与其他方法相结合，以更好地保留空间细节，包括局部能量、Markov先验和稀疏自动编码器。为了捕获图像中空间细节的方向，还考虑了曲波变换，以提高LR MS和PAN图像中边缘的表示能力。有学者使用自适应神经模糊推理得出的高频融合规则整合曲波变换后LR MS和PAN图像的系数。与轮廓波和曲波不同，framelet也被探索用于全色锐化。framelet支持大量的消失矩，这导致了变换域中的稀疏表示。
Shi等人提出了一种基于shearlet的图像融合方法，利用方向特征的灵活表达，通过脉冲耦合神经网络对高频系数进行融合。非下采样剪切波变换用于全色锐化，其中高频和低频通过局部能量和稀疏表示进行融合。

MRA-like： 鉴于基于MRA的全色锐化方法更好地保留了光谱信息的事实，还开发了一些类似MRA的工具，例如上述的支持值变换、支持张量变换和形态滤波器。寻找有效的滤波器是基于MRA类全色锐化方法的关键。有学者使用多尺度引导滤波器从PAN图像获得高频。此外，Yin等人提出了多尺度非局部均值滤波器来分解图像中的空间信息，可以减少融合结果中的空间失真。

对于基于MRA的方法，由于只有高频部分（如空间细节）被注入到LRMS图像中，因此融合图像中的光谱信息可以被很好地保留。然而，它对空间对应性是敏感的。当来自PAN图像的空间信息与来自LR MS图像的空间信息不匹配时，将出现局部差异。此外，由于PAN图像空间细节的过度注入，融合图像中引入了一些空间伪影。

DM-based methods

基于CS和MRA的全色锐化方法都利用某种变换来从全色图像推断LR MS图像中的缺失信息。然而，空间信息和光谱信息的耦合使得它们难以避免融合图像中的失真。图像复原的框架使得空间和光谱信息的有效保存成为可能。在该上下文中，基于DM的方法采用各种优化算法来从LR MS和PAN图像联合地恢复期望的HR MS图像。
具体地，空间和光谱退化模型可以被定义为：
其中𝐃和𝐁是空间下采样和模糊矩阵。在方程式(5)表示𝐒从成像传感器的光谱响应函数导出的光谱下采样矩阵。𝑛 是加性噪声。显然，方程中的解(4)和（5）是不适定的，并且由于大量的潜在解而难以获得满意的融合结果。因此，引入各种先验来正则化融合图像的解空间，其可以被公式化为：
其中𝜆和𝛼是折衷参数。𝑅 （𝐙）代表正则化项，其可以有效地嵌入许多先验。因此，从图像恢复任务的角度实现了LRMS和PAN图像的融合。
研究者深入分析了图像中存在的稀疏性、梯度先验、低秩先验等用于全色锐化的先验知识，并提出了许多基于DM的方法。以下各节简要介绍这些潜在先验。
Sparsity： 稀疏性作为一种流行的先验知识，由于其形式灵活、性能优良，被广泛应用于LRMS和PAN图像的融合。受CS理论的启发，有学者提出了一个开创性的框架，其中空间和频谱退化矩阵被视为测量矩阵。然后，通过基追踪算法解决了全色锐化问题。虽然HR字典的不可用性阻碍了LR MS和PAN图像的全尺度融合，但是提出的方法在该领域带来了爆发。随后，提出了一些改进版本以增强基于CS的全色锐化框架的效用。
除了压缩感知框架外，研究人员还探索了不同形式的稀疏性，以确保其效率和灵活性。Zhu等人估计了由PAN图像构建的字典上MS图像的稀疏表示。从流形学习的角度解决了上述LR和HR贴片之间的映射。在中分析了纹理域中的稀疏先验，并通过不同的公式进行建模。Zhang等人采用卷积稀疏编码来科普标准稀疏表示对全局结构和空间一致性的破坏。
Gradient Prior： 由于更好的空间信息保留，MS和PAN图像中关于梯度的先验也被考虑以正则化方程(6)中的模型。作为梯度域中的有效先验，总变分（TV）被引入全色锐化任务。在计算机视觉任务中，电视已被应用于图像恢复，并取得了显著的效果。当TV用于全色锐化时，通常根据源或HR MS图像中的属性对其进行调整以获得更好的融合结果。研究人员通常会发现新的领域来研究TV的属性。一些方法通过分析图像的概率分布，用其他范数代替施加在TV上的𝐿₁或𝐿₂范数。
除了TV先验之外，一些方法假设源图像和HR MS图像之间的空间和频谱关系可以继承到它们在梯度域中的对应物中。例如，Fang等人构建了一个空间项，用于表征梯度场中的光谱退化关系。为了去除遥感图像中的云，Meng等人提出了一种联合融合和缺失信息重构的方法，将光谱信息表述为变分框架。Wang等人也在PAN和HR MS图像中使用了光谱退化模型，以确保梯度场中全色锐化图像的几何信息一致性。此外，一些方法通过最小化PAN图像和HR MS图像之间的梯度差异来获得融合结果。Chen等人设计了一个动态梯度稀疏项，使HR MS图像各波段的梯度与PAN图像一致。此外，Liu等人假设HR MS图像中的二阶梯度也应类似于PAN图像中的二阶梯度。Liu等人通过将图像划分为不同的分量，将梯度差先验应用于HR MS和PAN图像的卡通和结构分量。Tian等人通过最小化所需融合图像与稀疏表示生成的粗略HR MS图像之间的梯度差异，获得最终全色锐化图像。

Other priors： 图像先验信息的丰富性使得基于DM的全色锐化方法仍然受到研究者的青睐。作为典型的结构稀疏先验，图像中的低秩属性也被用于正则化方程(6)中的融合模型。例如，Yang等人通过稳健PCA重新表述了全色锐化问题，其中HR MS图像所有波段中的空间和光谱相关性通过低秩矩阵建模。同时，使用低秩矩阵分解的替代形式Go分解来提取LR MS图像中的低秩分量。一些方法将低维约束与其他先验相结合，并将它们施加到期望的HR MS图像上。
此外，为了更好地重构融合图像，还考虑了图像的局部、非局部和非负特性。例如，Wang等人提出了一种基于稀疏表示和局部相似性的全色锐化方法，其中从PAN图像学习的局部自回归参数与HR MS图像共享。Khademi等用Markov随机场表示局部先验，将PAN图像的空间信息传递到融合图像中。捕获了PAN图像中的非局部相似性，以促进融合结果的解空间。Zhang等人提出了一种耦合稀疏非负矩阵分解模型用于LRMS和PAN图像的融合，该模型可以自然地保证图像中像素值的非负性。
虽然基于DM的全色锐化方法可以获得令人满意的HR MS图像，但其可用性受到计算复杂度高和所采用先验的泛化性的限制。一方面，这种方法是通过迭代优化算法来求解的。所涉及的迭代需要较长的时间来计算最优解。另一方面，基于DM的方法在很大程度上依赖于公式(6)中的先验。然而，这些先验仅在特定假设下有效，这限制了它们的性能和推广。此外，随着发射的卫星老化，成像传感器的MTF逐渐改变。在这种情况下，由于空间和光谱退化矩阵的错误估计，可能引入一些重建误差。

DNN-based methods

在过去的十年中，DNN在各个领域取得了巨大的成功。例如，Zhang等人研究了前馈去噪卷积神经网络，以处理具有未知水平的高斯噪声，其中利用残差学习来提高性能。Dong等人构建了一个深卷积神经网络，以学习LR和HR图像之间的端到端映射，他们分析了网络结构和参数设置，以生成令人满意的超分辨率结果。对于图像去模糊，Ren等人提出了两种生成网络来重建干净图像和模糊核。
计算机视觉领域的爆炸式发展自然扩展到LR MS和PAN图像的融合。根据基于DNN的全色锐化方法所采用的网络结构来划分它们是不现实的。当计算机视觉领域中的DNN被转移到全色锐化任务或者为该任务设计新的DNN时，压倒一切的考虑是如何处理双源输入：LR MS和PAN图像。因此，我们抓住了全色锐化与其他遥感图像处理或计算机视觉任务之间的根本区别，并将基于DNN的方法分为三个子类：源图像拼接（SIC）、特征拼接（FC）和特征融合（FF），其总体框图如图6所示。
以下是基于DNN的代表性方法的简要介绍：
SIC： 对于双源输入，直接的方法是将LR MS和PAN图像组合成一个，这就是源图像拼接（SIC）。SIC意味着LR MS和PAN图像被直接连接为具有+1通道的图像𝑁，然后被馈送到DNN。Masi等人首先采用了一种简单有效的三层架构（称为PNN）来学习连接图像和HR MS图像之间的映射。随后，Scarpa等人探索了不同的架构和训练变化，并将PNN扩展为目标自适应方法，以确保预期性能。由于SIC的简单性，这种方法更关注DNNs的结构设计。经常使用的结构包括残差网络、U-Net和多尺度网络。对于采用SIC进行预处理的基于DNN的方法，它们不能有效地利用LR MS和PAN图像中的互补信息，并且DNN不能抑制丰富的信息。
FC： 与原始图像中的拼接相比，FC在特征域中处理来自不同子网的信息。这样，通过预处理变换或子网络预先过滤掉一些冗余信息，可以避免融合图像的空间和光谱失真。例如，Imani 在频域中堆叠LR MS和PAN图像的特征图作为单层卷积网络的输入，该网络将3D Gabor滤波器和剪切波变换应用于域投影。构造拉普拉斯金字塔以模拟不同频率处的空间信息。
为了获得用于特征提取的自适应变换，手工制作的投影被相应的子网络代替。有研究学者将两个子网络的输出在特征域中捆绑在一起，并馈入生成对抗网络（GAN）。设计了编码器-解码器条件GAN，以在融合图像中生成更多的空间细节。TFNet是典型的双流网络，用于处理全色锐化的双源输入。基于双流结构，引入多尺度属性、反馈连接和密集连接，以通过子网提取更精细的特征图。虽然FC实现了良好的性能，但它不能消除来自不同子网的特征映射之间的冗余。此外，计算复杂度可能由于级联操作而增加。
FF： FC是处理不同子网特征映射的一种简单直接的操作。因此，它被许多基于DNN的方法广泛采用。与FC的简单性相比，引入了FF，旨在通过不同的融合规则在特征域中合并LR MS和PAN图像的互补信息。在这个子类别中，特征图之间的加法、减法和乘法通常被引入到重建网络的不同级别中。例如，Zhang等人展示了一个双向金字塔网络，其中PAN图像的特征图从粗到细直接添加到LR MS图像的特征图中。类似地，Luo构建了一系列堆叠融合单元，包含用于生成HR MS图像的特征添加。一些研究人员结合使用了特征图的加法和减法。Uezato等人考虑了乘法运算来整合特征图，其中使用引导解码器中的语义特征来促进相应的解码器。
除了特征域的算术运算外，Diao等人利用两个具有不同注意机制的子网络来提取空间和光谱特征，然后通过图形注意模块整合这些特征以强调信息丰富的特征图。FF可以消除来自不同子网的特征之间的冗余。然而，有时很难为FF设计出合适的策略。这些方法的难点在于探索上述算术运算之外的合理且可解释的融合策略。

除了图5中的图表外，还提出了一些混合方法，将SIC、FC和FF集成在一起，以利用LR MS和PAN图像中的空间和光谱信息。例如，Chen等人采用迭代残差网络来产生融合图像，其中SIC和FC同时用于逐步提高融合图像的质量。DNNs的快速发展给泛锐化任务带来了新的发展。目前，有许多其他尝试来解决全色锐化问题。最近，最近发明的神经网络，transformer已经在许多计算机视觉任务中达到了图表。transformer的自我注意机制非常强大，很快就引起了该领域许多研究人员的注意。优化模型驱动的泛锐化是另一个发展趋势。在这些方法中，迭代优化算法被展开为一个具有深层结构的网络，并配备了一个特定的网络来学习图像中的先验知识。DNNs的使用在给这一领域注入新活力的同时，也带来了挑战和问题，比如泛化。

Image quality evaluation

作为典型的逆问题，通过全色锐化获得的融合图像不能直接与真实世界场景中的参考图像进行比较。参考图像的缺失使得难以对融合结果进行定量评估。自然，考虑两种图像评估协议：降低分辨率评估和全分辨率评估。图7显示了这两种情况下的评估模式。通常，根据Wald协议评价融合图像的质量。此外，Palsson等人验证了Wald协议中的属性可以提供可靠的评估。
通常，从三个角度评估融合图像：空间信息、光谱信息和整体性能。融合图像中的空间信息包含了丰富的纹理和形状特征，可用于目标检测和识别。融合图像中的光谱信息负责记录土地覆盖。因此，一个令人满意的全色锐化方法应该在空间和光谱信息方面实现高精度。同时，该方法具有较高的整体性能。公正、全面的评价可以为全色锐化方法的选择提供可靠的依据。以下各节介绍了低分辨率和全分辨率情况下的空间指标、光谱指标和总体指标。

Reduced-resolution evaluation

在分辨率降低的情况下，必须预先准备参考图像以进行比较。为了实现基于参考的图像评估，Wald协议通常用作合成LR MS和PAN图像的指南，以通过空间退化进行融合。然后，将原始MS图像视为参考图像。根据该协议的一致性特性，在低分辨率评估中，融合图像应与原始MS图像相同。融合图像与参考图像之间的相似性度量采用了多种指标。
Spatial Indexes： 空间指标旨在评估融合图像中纹理或边缘的丰富性。通常，图像中的纹理或边缘的梯度幅度较大。因此，在一些文献中使用**梯度的平均幅度（AG）来反映融合图像的空间质量。此外，协方差和标准方差也记录了融合图像的空间变化。然后，Wang等人采用通用图像质量指数（UIQI）对融合图像中的空间失真进行建模，该空间失真包括协方差、标准方差以及融合图像和参考图像的均值。引入相关系数（CC）和空间相关系数（SCC）**用于空间信息的评估。由于在自然图像评价方面的成就，**结构相似性（SSIM）指数有时被用作感知融合图像中的结构信息的手段。
Spectral Indexes： 为了评估光谱信息，将融合图像中的每个像素的光谱矢量与参考图像中的对应像素的光谱矢量进行比较。例如，Yuhas等人提出了光谱角映射器（SAM）来计算融合图像的光谱矢量与参考图像的光谱矢量之间的角度。重建误差可通过均方根误差（RMSE）和相对平均光谱误差（RASE）进行评估。根据RMSE和RASE的公式可以看出，RMSE比RASE对较大的误差更为敏感。Chang提出了光谱信息散度（SID）**来分析融合图像中的光谱差异。
Overall Indexes： 在总体指数中，评估了空间和光谱信息。它们提供了融合图像的空间和光谱信息之间的全局折衷。Q4是一个经典的综合指标，它采用超复数或四元数来度量四波段MS图像的相似性。Erreur Relative Globale Adimensionnelle de Synthése（ERGAS）用于计算融合图像中的光谱和空间失真量。在ERGAS中，RMSE和每个波段的平均值与空间分辨率相结合。
虽然上述指标从不同角度度量了融合图像的空间和光谱特性，但被普遍认可的指标只有SAM、Q4和ERGAS。然而，融合图像与参考图像之间的相似性在一定程度上在一些指标上被重复测量。例如，RMSE涉及ERGAS。由于在降分辨率和全分辨率情况下空间和光谱特性的差异，基于参考的评价指标将引入无效假设的偏差，尽管这些指标可以容易地计算。

Full-resolution evaluation

在全分辨率评估情况下，将融合图像中的空间和光谱信息分别与PAN和LR MS图像中的空间和光谱信息进行比较。此外，根据融合图像的空间和光谱特性，专门计算了一些无参考指标。对于全分辨率评估，困难在于缺少参考图像。全分辨率索引的发展主要围绕无参考质量（QNR） 指标的改进和低分辨率指标的扩展展开。
QNR and Its Variants： Alparone等人提出了三种空间和光谱信息评估指标。第一个指标是光谱失真指数𝐷_𝜆，它是由融合图像的UIQI差值得到的，用来度量与LR MS图像的光谱差异。根据PAN图像与其相应的空间退化版本𝐷_𝑠之间的质量指标差异计算空间失真指数。然后，将这两个指标联合引入到综合指标QNR中，以反映融合图像的全局质量。然后，Khan等人将滤波器匹配的MTF引入𝐷_𝜆和𝐷_𝑠。这样，融合图像中的光谱和空间信息可以更合理地提取。Palubinskas 还提出了一种联合质量度量（JQM），它由完整和简化情况下的QNR组成。
Extensions of Reduced-resolution Indexes： 鉴于基于参考的索引的可用性，将其改进版本应用于全分辨率评估。例如，Vivone等人将全分辨率评价任务重新转换为顺序贝叶斯框架，通过在缩小尺度下再现融合结果推断Q4值。随后，Vivone等人通过将状态估计重新表述为凸组合问题，降低了中指数的计算复杂度。此外，Carlé等人利用线性和二次多项式拟合降低分辨率的多尺度失真测量，然后将其外推至全分辨率值。
在全分辨率评估中，最常用的指标是𝐷𝜆、𝐷𝑠和QNR。然而，实验证明这些指标与融合图像的视觉性能不一致，也不可靠。提出了一些新的范式，以便进行更客观的评估。Zhou等人学习了全分辨率质量评估的基准多元高斯（MVG）模型。在MVG模型中，从360幅生成图像中提取空间和光谱特征。然后，将基准MVG与融合图像拟合得到的MVG之间的距离作为质量评价。但是，生成的图像不能包括所有类型的土地覆盖。这限制了基准MVG的通用性。因此，有必要建立一个更合理的全分辨率评估方案。

Limitations, difficulties and challenges

本文对全色锐化技术进行了研究，并对融合图像质量评价的相关文献进行了讨论。虽然LRMS和PAN图像的融合已经得到了广泛的研究并取得了良好的效果，但在全色锐化方面仍然存在很大的挑战。在本节中，我们将分享我们对“泛锐化”面临的挑战和新趋势的见解。

Dataset

随着全色锐化进入深度学习时代，新提出的基于DNN的方法需要越来越多的数据进行训练。目前，还没有公开的、普遍认可的遥感图像数据集可用于不同全色锐化方法之间的比较。实际上，建立一个全面的全色锐化数据集是很困难的，它涉及到土地覆盖多样性和季节变化，以及源图像的成像差异。在编制全面数据集时，我们必须考虑到以下限制和困难：
High Diversity of the Observed Scenes： 要建立的数据集应包含尽可能多的土地覆盖种类。典型的土地覆盖包括草地、林地、农田、沃茨、农村和城市地区。对于仅在农村数据集上训练的特定DNN，当在来自一个城市数据集的LR MS和PAN图像上测试时，融合性能将下降。LRMS和PAN影像在不同地表覆盖类型下的融合效果难以兼顾。经验表明，大多数全色锐化方法都不能很好地保留植被区域的光谱信息。
Seasonal Variations： 同样，数据集还应考虑季节变化引起的表面特征差异。在设计全色锐化方案时，不能忽略冬夏植被区的光谱差异。在基于DNN的全色锐化方法中，地表覆盖的光谱变化会导致原始数据集的区域偏移。然后，融合图像的光谱信息被扭曲。
Large Differences in Satellite Imaging Sensors： 由于仪器的不同，不同卫星的光谱响应也有很大差异。不同的光谱响应意味着对于来自两个卫星的数据集，从源图像到HR MS图像的映射关系将是不同的。此外，不同卫星的MTF也不尽相同。因此，如果我们使用在QuickBird数据集上训练的DNNs来融合来自GeoEye-1卫星的LR MS和PAN图像，可能不会获得令人满意的结果。
总之，基于DNN的全色锐化方法是数据饥渴的。只有包含各种类型图像的较大数据集才能保证基于DNN的全色锐化方法产生良好的融合效果。最后，构造更大的数据集来缓解基于DNN的方法的泛化问题。如果某类源图像不存在于构建的数据集中，基于DNN的方法对该类图像的融合效果可能不如传统方法。因此，迫切需要构造更大的数据集来进行DNNs的充分训练。综合数据集还可以为验证DNNs在土地覆盖、季节和成像传感器上的泛化能力提供操作方案。

Quality evaluation

全色锐化作为一种必不可少的预处理方法，可以有效地提高MS图像的空间分辨率。然而，目标是实现对来自MS图像的观察场景的有意义的解释，其中重要的下游任务是对象检测和图像分割。因此，对融合图像的评价应从两个方面进行：形象导向评价和任务导向评价。由于任务导向评价的难度较大，常常被忽视。我们认为以下几个方面是融合图像评价的研究趋势。
Image-oriented Evaluation： 通常，由于存在参考HR MS图像，在分辨率降低的情况下可以容易地评估融合图像的质量。然而，LRMS和PAN图像的合成取决于MTF，这可能会引入一些潜在的误差。因此，更有必要评估全分辨率情况下的图像质量。不幸的是，经常使用的𝐷_𝜆、𝐷_𝑠和QNR有时与融合图像的视觉性能不一致。与自然图像不同，遥感图像的辐射分辨率较高。自然图像的无参考性评价指标不能简单地转化为遥感图像的评价指标。无参考影像索引的设计应综合考虑遥感影像的空间、光谱和辐射特性。
Task-oriented Evaluation： 期望通过下游任务来研究融合图像的质量。例如，Bovolo等人研究了不同全色锐化方法对变化检测任务的影响。全色锐化作为一种必不可少的预处理方法，可以有效地提高MS图像的空间分辨率。因此，可以对不同方法的全色锐化图像执行后续任务，然后将相关任务的精度作为融合图像质量比较的标准。与面向图像的评价方法相比，面向任务的评价方法将使全色锐化方法更具实用性。

DNNs for pan-sharpening

Training： 对于大多数基于DNN的全色锐化方法，通常采用端到端的策略。在这些方法中，LR MS和PAN图像被作为DNNs的输入，然后DNNs被训练以逼近相应的HR MS图像。但用于培训的HR MS图像是不可获取的。然后，对原始LRMS和PAN图像进行空间退化，以生成训练图像对。在生成的数据集中，将退化的LR MS和PAN图像馈送到DNN中，并且原始MS图像是对应的参考图像。尽管通过端到端训练已经获得了良好的性能，但是难以忽视由降低分辨率和全分辨率情况之间的空间分辨率比引起的空间和光谱特性的差异。例如，全分辨率数据集中的空间细节无法从分辨率降低的数据集中推断出来。因此，在全分辨率数据上训练DNNs或在低分辨率和全分辨率数据上联合训练DNNs仍然是一个开放的和有前途的课题。例如，Liu等人尝试将监督和非监督训练结合在一起，以同时学习低分辨率和全分辨率数据中的空间和光谱信息。
New Paradigms： 一般而言，无监督的DNN无法产生与监督的DNN相比具有竞争力的结果。自然地，利用源图像和HR MS图像之间的空间和光谱退化模型来促进DNNs的训练。同时，该范例会引入一些退化模型带来的误差，限制了无监督训练的DNNs的性能。近年来，展开技术已经应用于许多领域，并通过结合空间和光谱观测模型获得了良好的性能。因此，空间和谱模型驱动的DNN可能是改善全色锐化图像性能的一个很好的机会。此外，新的DNNs也蓬勃发展，如transformer、图神经网络和零参考GAN。动态神经网络的发展将进一步提高融合图像的质量，并为该领域存在的问题提供更多的解决方案。

Conclusions

全色锐化可以有效地融合LRMS和PAN图像的信息。融合后的图像为观测场景提供了更全面、可靠的描述，有利于后续的目标检测、识别等判读任务。然而，难以在LR MS图像或PAN图像中实现。因此，LR MS和PAN图像的融合被广泛地研究并且提出了各种方法。在本文中，我们将这些全色锐化方法简单地分为四类：基于CS的方法、基于MRA的方法、基于DM的方法和基于DNNs的方法。
对于基于CS的方法，适当的投影方法和注入系数在其公式中起着重要作用。尝试了不同的变换方法来分离MS图像中的空间和光谱信息。考虑了光谱物理特性以计算更精确的注入系数。在基于MRA的方法中，MRA被视为用于空间细节估计的高频提取器，其中各种MRA工具关注不同的图像信息。注入系数由不同的全局或局部模型计算。通过结合LRMS和PAN图像的不同先验知识，基于DM的方法可以对空间和光谱退化模型进行适当的正则化。通常，由于引入了设计良好的约束条件，所以采用各种优化算法来求解它们的最终融合模型。在基于DNNs的方法中，大量的注意力集中在DNNs的结构设计上，以处理LR MS和PAN图像引起的双重输入。此外，由于HR MS图像不可用于训练，因此在该领域还探索了无监督训练。
此外，本文还提出了融合图像的质量评价方法，包括降分辨率指标和全分辨率指标。在低分辨率的情况下，需要参考图像。Q4、SAM和ERGAS通常用于评价。对于全分辨率的融合图像，常用的度量标准是𝐷𝜆、𝐷𝑠和QNR。然而，在一些文献中，这些度量被证明是不恰当的。因此，应进一步探索更合理的全分辨率指标。此外，我们还列出了关于数据集、图像评价和新范式的有前途的方向。