TIP 2025 | 基于傅里叶解耦的联合暗光增强和去模糊算法-智慧文博士

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

导读

论文《Fourier-based Decoupling Network for Joint Low-Light Image Enhancement and Deblurring》已被图像处理领域的国际顶级期刊 IEEE Transactions on Image Processing (TIP) 收录。该研究由中山大学智能工程学院完成。论文第一作者为中山大学博士研究生涂陆炜，通讯作者为其导师金枝教授。

Code：https://github.com/Jabruson/FDN-TIP2025

夜间手持拍摄的图像常常同时存在光照不足和运动模糊两种退化问题。先前的方法在空间域中独立处理这两种退化，但由于暗光和模糊在空间域中高度耦合，这些方法难以有效解耦并恢复出清晰的图像细节。

针对这一挑战，我们从频域的角度分析图像的退化表形式，并观察到一个关键现象：在傅里叶域中，暗光和模糊两种退化可以被独立地表示为图像的振幅 (amplitude) 和相位 (phase) 。基于此，我们深入分析了图像退化的物理过程，研究了暗光退化和模糊退化在振幅和相位上的表达形式，并提出了傅里叶解耦网络 (FDN)，能够端到端实现联合暗光增强和去模糊，还可以实现用户自定义亮度恢复。大量实验证明，FDN在合成与真实世界数据集上均取得了当前最佳的性能，尤其在恢复图像边缘细节方面表现出良好的效果。

Abstract

本文提出了一种基于傅里叶域解耦的联合暗光增强和去模糊算法FDN。FDN从不同退化的物理过程出发，有效解耦并复原了暗光退化和模糊退化，能够恢复良好的图像边缘和细节。

本文的贡献与创新点如下：

基于低光和模糊在傅里叶域振幅和相位上的不同物理特性来设计网络。我们深入探究了相位相关性与模糊信息、振幅调制与暗光退化信息之间的关系，为联合图像复原任务提供了高效的解耦方法。
我们设计了一种自注意力机制来提取不同类型的退化表征，并设计了一个高效的前馈网络 (FFN) 来自适应地学习幅度和相位的频率特征。此外，我们还引入了一种基于傅里叶变换的交叉注意力机制，为频率学习提供关键的先验知识。
实验结果表明，与当前的 SOTA 方法相比，我们的方法仅用 16.7% 的参数就达到了 SOTA 性能。尤其是在边缘恢复方面，我们的复原结果表现出了良好的性能。

Method

Motivation

图1

我们的核心观察是，图像的结构信息（如边缘）主要由相位决定，而亮度、对比度等统计信息则主要由振幅决定。如图1所示，我们将一张正常光照的清晰图像(a)与一张暗光模糊图像(h)的相位进行交换，可以分别得到一张正常光照的模糊图像(d)和一张暗光的清晰图像(k)。这直观地证明了在傅里叶域中对暗光（振幅分量）和模糊（相位分量）进行解耦的可行性。我们还展示了仅包含相位分量的结果(f)和(m)以及仅包含振幅分量的结果(g)和(h)，进一步说明相位分量能够充分表征图像结构信息这一点。

我们进一步从物理过程对这种解耦特性进行了理论推导:

振幅中的亮度信息：对于一幅灰度图像对于一副灰度图像，其傅里叶振幅的直流分量等于图像所有像素的总和，因此该直流分量可以被视为图像的全局亮度。然而，如果仅仅通过增加该直流分量来提升亮度会由于平等地增加每一个像素点而导致颜色失真。但如果我们同时缩放整个振幅分量而不是仅仅改变直流分量，我们就可以在保持相位分量的同时调整全局亮度并保持色彩的保真度。
相位中的模糊信息：由于图像结构信息主要由傅里叶相位表示，因此模糊退化主要表现为傅里叶相位分量的失真。从图像模糊的物理过程来看，图像模糊可以建模为一系列连续帧的平均：

结合傅里叶移位定理，我们可以推导出两个模糊程度不同，但是初始状态相同的图像之间的相位相关性：

该公式从数学上描述了两个模糊程度不同的图像之间的相位相关与模糊程度呈正比关系。这一理论指导我们设计了基于相位相关的注意力机制来专门提取和处理模糊信息。

Network Architecture

图2

基于上述理论分析，我们设计了FDN，如图2所示，其整体架构由两个核心模块构成：多尺度振幅恢复模块 (MAR) 和傅里叶解耦变换器 (FDformer) 。

MAR负责粗略的振幅恢复。MAR生成的粗略振幅作为亮度先验，使FDformer能够专注于精细细节的恢复。此外，MAR允许通过缩放因子来实现用户自定义的亮度恢复。

图3

FDformer是网络的核心，采用非对称的编码器-解码器架构，包含三个关键组件（如图3）：傅里叶解耦自注意力 (FDSA), 傅里叶解耦前馈网络 (FDFFN), 和傅里叶交叉注意力前馈网络 (FCAFFN)。

傅里叶解耦自注意力(FDSA)。结合上述对不同退化信息在相位以及振幅上的表征分析，我们设计了FDSA以提取混合退化情景中的不同退化信息,FDSA旨在从相位中提取模糊特征，从振幅中提取暗光特征。我们引入了三种注意力机制：

分别用于捕捉模糊退化信息、暗光退化信息以及混合退化信息。

傅里叶解耦前馈网络 (FDFFN)。FDFFN包含并行的频率分支和空间分支。频率分支利用可学习的滤波器，分别对特征的振幅和相位进行自适应的频域选择与调整。空间分支用于学习局部信息以补充频域信息的表达。
傅里叶交叉注意力前馈网络 (FCAFFN)。FCAFFN负责将MAR提供的粗恢复振幅先验，以及输入图像的多尺度相位特征有效地融入到FDformer中，以此指导FDformer的亮度恢复以及结构信息恢复。FCAFFN同时包含了傅里叶交叉注意力机制以分别融合振幅和相位信息以及空间调制机制以辅助信息融合。

Experiments

Results on joint low-light image enhancement and deblurring

LOL-Blur数据集。我们在公开的LOL-Blur 数据集上进行了广泛的定量评估，这是一个专用于联合暗光增强和去模糊的数据集。如表1所示，我们不仅比较了专门由于联合暗光增强和去模糊的方法，我们还对比了专门用于暗光增强、去模糊以及通用的图像复原方法。FDN在关键指标（PSNR, SSIM, LPIPS, FID）上均超越了现有的各类方法。值得注意的是，相较于SOTA方法VQCNIR，我们的FDN在性能更优的同时，参数量减少了83.3% 。

表1

为了更全面的展示我们的方法的性能，我们进行了定性的评估。如图4的视觉对比所示，大多数方法在处理严重模糊的区域时效果不佳，或产生伪影。相比之下，我们的方法能够显著地恢复出更清晰的边缘和更精细的纹理细节（例如图中公交车的车牌和车身细节），证明了傅里叶解耦策略的优越性。

图4

Real-LOL-Blur数据集。为了验证模型在真实世界场景中的泛化能力，我们将在LOL-Blur上训练的模型在没有真实标签的Real-LOL-Blur数据集上进行了测试, 如表2所示。

表2

此外，为了证明FDN的优越性，我们还将FDN与“先增强后去模糊”或“先去模糊后增强”的简单级联策略进行了比较，如表3所示。

表3

在多个常用的无参考图像质量评价指标（NIQE, BRISQUE, PI）上，FDN的表现全面优于其他所有方法。视觉对比也显示（图5和图6），在真实的夜景照片中，FDN能够恢复出最清晰的边缘和最自然的颜色，而其他方法往往难以处理严重的模糊或引入伪影。

图5

图6

Results of luminance control strategy

FDN还提供了一个自定义输出亮度的功能。通过调整输入参数（期望亮度与原始亮度的比值），用户可以轻松控制生成图像的明暗程度，以满足个性化的视觉偏好。如图7所示，不同的自定义值会改变振幅，从而调整亮度，但相位基本保持稳定，保证了图像结构不被破坏。图(b)的散点图进一步验证了我们亮度调节策略的精确性和可靠性。

图7

Ablation studies

为了验证我们所提出各个模块的有效性，我们进行了详细的消融研究（如表4）。实验结果表明，对于FDSAA，与空间域注意力(MDTA)或其他频域注意力(FSAS)相比，我们提出的FDSA由于能够解耦退化信息，性能提升显著。而移除FDFFN中的振幅或相位滤波器或者替换FDFFN为其他常用的前馈网络均会导致性能明显下降，证明了对不同频率成分进行精细调整的必要性。此外，实验结果表明，FCAFFN中的傅里叶交叉注意力机制以及空间调制策略都是同样必要的。

表4

中山大学智能工程学院前沿视觉实验室( FVL: https://fvl2020.github.io/fvl.github.com/ )由金枝教授建设并维护，实验室目前聚焦在图像/视频质量增强、视频编解码、3D 重建和无接触人体生命体征监测等领域的研究。旨在优化从视频图像的采集、传输到增强以及服务后端应用的完整周期。实验室的目标是开发通用的概念和轻量化的方法。为了应对这些挑战，全体成员将持之以恒地进行相关的研究，并与其他实验室进行合作，希望利用更多关键技术，解决核心问题。长期欢迎有志之士加入！

往期精彩文章推荐