Research Article

Split Viewer

Korean J. Remote Sens. 2025; 41(1): 143-152

Published online: February 28, 2025

https://doi.org/10.7780/kjrs.2025.41.1.12

© Korean Society of Remote Sensing

Transformer 기반 딥러닝 모델을 활용한 ERS SAR 영상 초해상화 연구

이준원1 , 윤승원2 , 이규철3*

1충남대학교 컴퓨터공학과 석사과정생
2충남대학교 컴퓨터공학과 박사과정생
3충남대학교 컴퓨터공학과 교수

Received: January 20, 2025; Revised: February 3, 2025; Accepted: February 5, 2025

Transformer-Based Deep Learning Models for ERS SAR Image Super-Resolution

Jun-Won Lee1 , Seung-Won Yoon2 , Kyu-Chul Lee3*

1Master Student, Department of Computer Science, Chungnam National University, Daejeon, Republic of Korea
2PhD Student, Department of Computer Science, Chungnam National University, Daejeon, Republic of Korea
3Professor, Department of Computer Science, Chungnam National University, Daejeon, Republic of Korea

Correspondence to : Kyu-Chul Lee
E-mail: kclee@cnu.ac.kr

Received: January 20, 2025; Revised: February 3, 2025; Accepted: February 5, 2025

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Synthetic aperture radar (SAR) image restoration plays a crucial role in enhancing spatial resolution and suppressing noise, enabling various applications such as terrain analysis, disaster monitoring, and military reconnaissance. However, SAR images exhibit speckle noise, strong directional characteristics, and multiple scattering effects, making them challenging to process with conventional image restoration techniques. To address these challenges, convolutional neural network (CNN)-based models such as superresolution convolutional neural network (SRCNN), very deep super-resolution (VDSR), and residual channel attention network (RCAN) have been widely employed. While these models effectively capture local features, they are limited in modeling the complex structural characteristics and long-range dependencies inherent in SAR imagery, leading to suboptimal restoration of fine details. In this study, we propose Enhanced SwinIR, an improved Transformer-based model designed to overcome these limitations. The proposed model integrates the Combined Attention Mechanism, which fuses window-based local attention with global attention and incorporates the Edge Enhance Residual Block, which employs a learnable Sobel filter to improve edge preservation. Experimental evaluations using SAR images from the ERS-1 and ERS-2 satellites demonstrate that the Enhanced SwinIR model outperforms CNN-based models (SRCNN, VDSR, RCAN), achieving a peak signal-to-noise ratio (PSNR) of 23.413 dB, an increase of 0.956 dB compared to the CNN average of 22.457 dB. Additionally, it achieves a structural similarity index (SSIM) of 0.912, surpassing the CNN average of 0.893 by 0.019, and a speckle suppression index (SSI) of 8.653, an improvement of 0.830 over the CNN average of 7.823. Furthermore, compared to the original SwinIR, Enhanced SwinIR improves SSIM by 0.003 and SSI by 0.067. These results confirm that Enhanced SwinIR significantly enhances SAR image restoration performance, particularly in terms of structural similarity and speckle noise suppression.

Keywords SAR image restoration, ERS satellite data, Transformer-based model, Super-resolution

합성개구레이더(synthetic aperture radar, SAR) 영상 복원은 해상도를 향상시키고 노이즈를 억제하여 다양한 응용 분야에서 활용된다. 그러나 SAR 영상은 스페클 노이즈(speckle noise), 강한 방향성, 다중 산란 등의 특성을 가지며, 기존 영상 복원 기법으로 처리하기 어려운 한계가 있다. 이를 해결하기 위해 기존에는 초해상화 합성곱 신경망(super-resolution convolutional neural network, SRCNN), 심층 초해상화(very deep super-resolution, VDSR), 잔차 채널 어텐션 네트워크(residual channel attention network, RCAN) 등 convolutional neural network (CNN) 기반 모델이 활용되어 왔다. 그러나 이러한 모델들은 지역적 특징 학습에는 효과적이지만, SAR 영상의 복잡한 구조적 특성과 장거리 의존성을 충분히 모델링하지 못해 세부 패턴 복원에 한계를 가진다. 본 연구에서는 이러한 문제를 해결하기 위해 Enhanced SwinIR 모델을 제안한다. 제안된 모델은 윈도우 기반 로컬 어텐션(local attention)과 전역 어텐션(global attention을 결합한 Combined Attention Mechanism을 적용하고, 학습 가능한 Sobel 필터를 포함한 Edge Enhance Residual Block을 통합하여 엣지 복원 성능을 향상시켰다. ERS-1 및 ERS-2 위성의 SAR 영상을 활용한 실험 결과, Enhanced SwinIR 모델은 CNN 기반 모델(SRCNN, VDSR, RCAN)의 평균 피크 신호 대 잡음비(peak signal-to-noise ratio, PSNR) 22.457dB 대비 0.956dB 증가한 23.413dB, 구조적 유사도 지수(structural similarity index, SSIM) 0.893 대비 0.019 증가한 0.912, 스페클 노이즈 억제 지수(speckle suppression index, SSI) 7.823 대비 0.830 증가한 8.653의 성능을 기록하였으며, 기존 SwinIR 대비 SSIM은 0.003, SSI는 0.067 더 높은 성능을 보였다. 이를 통해 Enhanced SwinIR이 SAR 영상 복원에서 구조적 유사성과 스페클 노이즈 측면에서 향상된 복원 성능을 보였음을 확인하였다.

주요어 SAR 영상 복원, ERS 위성 데이터, Transformer 기반 모델, 초해상화

이미지 초해상화(super-resolution, SR)는 저해상도 이미지를 기반으로 고해상도 이미지를 복원하는 기술로, 컴퓨터 비전 및 이미지 처리 분야에서 중요한 역할을 한다. SR 기술은 의료 영상에서 질병 진단의 정확도를 높이고, 보안 감시에서 객체 식별 성능을 향상시키며, 위성영상을 활용한 재난 관리와 지형 분석 등 다양한 분야에서 고품질 데이터를 제공하여 데이터 해석의 신뢰도를 크게 향상시킨다(aRosen et al., 2000; Mason et al., 2014; Dong et al., 2016). 고해상도 복원 기술은 재난 대응, 농업 모니터링, 군사 정찰 등 다양한 분야에서 정보의 활용도를 극대화할 수 있다. 예를 들어, 재난 지역에서는 구조 활동의 정확도와 속도를 향상시키고, 농업에서는 작물 생장 상태를 보다 정밀하게 분석하며, 군사 정찰에서는 신뢰성 높은 목표 탐지 및 전략 수립을 지원할 수 있다(Ko et al., 2021; Rosen et al., 2000).

최근 SAR 위성의 발사가 증가하며 다양한 환경 조건에서 데이터를 수집할 수 있는 SAR 영상의 활용 가능성이 급격히 확대되고 있다(Ko et al., 2021). 이 중 유럽우주국(European Space Agency, ESA)이 1991년과 1995년에 발사한 European Remote Sensing (ERS) 위성 시리즈는 지구 환경 모니터링, 기후 변화 분석, 해양 및 대기 연구, 재해감시 등을 목적으로 설계되었다. ERS-1/2 위성은 C-밴드 SAR 이미징 기술를 탑재하여 광범위한 지역에서 고해상도 SAR 영상을 제공하였으며, 현재는 운용이 종료되었으나 30년 이상 축적된 위성 SAR 영상은 여전히 다양한 연구 분야에서 중요한 역할을 한다. 그러나 ERS-1/2 SAR 영상은 30 m의 낮은 해상도를 가지며, 과거 SAR 이미징 기술의 한계로 인해 노이즈가 많고 세부 지형 분석이 어려운 문제가 있다.

이를 극복하고 ERS-1/2 데이터를 보다 효과적으로 활용하기 위해 초해상화 기법 적용이 필수적이다. 초해상화된 ERS-1/2 SAR 영상은 최신 위성 데이터(Sentinel-1 등)와 비교 분석이 가능하며, 장기적인 환경 변화 연구와 과거 데이터의 정밀한 해석을 가능하게 한다(Kim et al., 2010; Kim and Han, 2022). 이러한 문제를 해결하기 위해 SR 기술이 주목받고 있으며, 이 기술은 저해상도의 SAR 영상을 복원하여 데이터 품질을 높이는 데 중요한 역할을 한다(Zhang and Ban, 2019). SR 기술을 적용하면 기존 위성 하드웨어의 업그레이드 없이 데이터의 품질을 향상시킬 수 있어 경제적인 이점을 제공한다.

위성 SAR영상의 이미지 복원(imagerestoration)은 주로 convolutional neural network (CNN) 기반 방법론이 주를 이루어 왔다. CNN은 합성곱 연산을 통해 지역적 정보를 효과적으로 처리하며, SAR 영상 복원 및 노이즈 제거에서 뛰어난 성능을 보여왔다(Ledig et al., 2017; Lim et al., 2017). 그러나 CNN은 동일한 커널(kernel)을 사용해 이미지를 처리하는 구조적 특성으로 인해, SAR 영상의 다양한 특성을 효과적으로 반영하는 데 한계를 가진다. SAR 영상은 관측 지역의 지형, 표면 거칠기, 수분 함량, 인공 구조물의 밀집도 등에 따라 반사 특성이 크게 달라지며, 동일한 지역에서도 촬영 각도와 관측 조건에 따라 영상의 패턴이 변화할 수 있다이러한 특성은 스페클 노이즈(speckle noise)의 강도 변화, 이미지의 강한 방향성, 높은 동적 범위(dynamic range), 다중 산란(multiple scattering) 등으로 인해 CNN이 정해진 커널로 일관되게 학습하기 어려운 요인으로 작용한다. 따라서 CNN 기반 모델은 SAR 영상의 다양한 구조적 특징을 충분히 반영하지 못하고, 복잡한 패턴과 세부 정보를 복원하는 데 어려움을 겪는다. 또한, 픽셀 간 장거리 상호작용(long-range interactions)을 효과적으로 모델링하지 못해 세부적인 품질 향상을 제한하는 문제가 있다(Cordonnier et al., 2019; Elsayed et al., 2020; Vaswani et al., 2021).

최근 Transformer 기반 접근법은 자기-어텐션(self-attention) 메커니즘(mechanism)을 통해 전역적 상호작용을 모델링하며, 이미지 복원 작업에서 새로운 가능성을 제시하고 있다(Wang et al., 2018; Zhang et al., 2017). Swin Transformer는 CNN과 Transformer의 장점을 결합한 구조로, 로컬 어텐션(local attention)을 활용해 효율적으로 이미지를 처리하면서도 전역적 문맥 정보를 단계적으로 확장할 수 있는 가능성을 보여주었다(Liu et al., 2021). 하지만 Swin Transformer 역시 윈도우(window) 기반 로컬 어텐션의 구조적 특성으로 인해 복잡한 SAR 영상에서 중요한 엣지 정보인 산맥, 해안선, 도로, 건물과 같은 지형 및 인공 구조물의 경계와 세부 구조인 지면의 거칠기, 작은 지형 변화, 수로 패턴 등을 효과적으로 복원하는 데 한계를 보인다. 본 연구는 이러한 한계를 극복하기 위해 ERS-1과 ERS-2 위성에서 수집된 SAR 영상을 대상으로 기존 SwinIR 모델의 윈도우 기반 로컬 어텐션의 한계를 보완하고 엣지 보존 성능을 강화한 새로운 Transformer 기반 초해상화 모델을 제안한다. 본 논문은 다음과 같이 구성되어 있다. 2장에서는 연구에 사용된 데이터와 관련 연구를 설명한다. 3장에서는 제안된 모델의 구조와 실험 방법에 대해 상세히 기술하며, 기존 모델과의 비교를 통해 성능을 평가한다. 4장에서는 본 연구의 결론과 향후 연구 방향을 제시한다.

2.1. 연구 대상 및 데이터 출처

본 연구에서는 유럽우주국에서 제공하는 ERS-1 및 ERS-2 위성의 SAR 영상을 사용하였다(Dosovitskiy et al., 2021). ERS 위성은 C-밴드(5.3GHz) 레이더를 이용하여 지구 관측을 수행하며, 본 연구에서는 ImageMode에서 촬영된 SAR 영상을 활용하였다. 사용된 데이터는 ESA의 SAR 데이터 아카이브에서 수집되었으며, Level 1 Medium Resolution (SAR_IMM_1P) 포맷으로 제공된다. 해당 데이터는 방사 보정(radiometric calibration), 기하학적 보정(geometric correction), 열 잡음 제거(thermal noise removal) 등의 기본적인 전처리가 적용된 상태이다(Small et al., 2023; Kumar, 2021).

수집된 SAR 영상은 슬랜트 범프 정렬(slant range projection)이 적용된 강도(intensity) 영상이며, 해상도 측면에서 range resolution과 azimuth resolution은 각각 26 × 6 m이다. Ground range projection을 적용하면 약 30 × 30 m의 공간 해상도를 갖는다(NASA Earthdata, 2024). 또한, ERS SAR 시스템의 신호 대 잡음비(signal-to-noise ratio, SNR) 및 등가 레이더 단면적(equivalent radar cross-section, ERCS)을 고려했을 때, 해당 데이터의 noise equivalent sigma zero (NESZ)는 약 –22 dB이다(ESA eoPortal, 2024).

2.2. 관련 연구

SAR 영상 복원 연구는 CNN기반 모델에서 Transformer 기반 모델로 확장되며 성능이 점진적으로 향상되었다. CNN 기반 모델은 지역적 특징을 효과적으로 학습하지만 장거리 상호작용을 모델링하는 데 한계를 가진다. 이를 보완하기 위해 Transformer 기반 모델이 도입되었으며, 자기-어텐션 메커니즘을 활용하여 전역 정보를 효과적으로 학습하는 방식으로 발전해왔다. CNN 기반 초해상화 모델로는 super-resolution convolutional neural network (SRCNN), very deep super-resolution (VDSR), residual channel attention network (RCAN) 등이 있으며, 각각 단순한 네트워크 구조, 심층 네트워크 학습, 채널 주의 메커니즘을 적용하여 복원 성능을 향상시켰다. Transformer 기반 모델 중 SwinIR은 Swin Transformer 구조를 활용하여 지역적 정보와 전역 정보를 효과적으로 결합하지만, 윈도우 기반 어텐션의 한계로 인해 복잡한 SAR 영상에서 세부 구조 복원에 어려움이 있다. 본 연구에서는 기존의 대표적인 CNN 기반 초해상화 모델(SRCNN, VDSR, RCAN)과 최신 Transformer 기반 모델(SwinIR)을 비교 대상으로 선정하였다.

SRCNN은 초해상도 문제를 해결하기 위해 제안된 최초의 CNN기반 모델 중 하나로, 저해상도 이미지를 고해상도로 복원하기 위한 딥러닝 모델의 초기 설계를 제시하였다(Dong et al., 2016). 이 모델은 3개의 합성곱 계층으로 구성되며, 각 계층은 입력 이미지의 특징 추출 및 복원을 위해 서로 다른 필터 크기를 활용한다. 첫 번째 계층은 9 × 9 크기의 필터를 사용하여 입력 이미지에서 저주파 정보를 추출하고, 두 번째 계층은 1 × 1 필터를 통해 비선형 매핑을 수행하며, 세 번째 계층은 5 × 5 필터를 적용하여 고해상도 이미지를 재구성한다. 각 계층에서는 ReLU활성화 함수를 통해 비선형성을 부여하며, 입력 이미지는 업샘플링된 상태에서 모델에 입력된다(Nair and Hinton, 2010).

VDSR은 초해상도 문제를 해결하기 위해 제안된 딥러닝 기반 모델로 깊은 네트워크 구조를 통해 복원 성능을 크게 향상시켰다(Kim et al., 2016). 이 모델은 20개의 합성곱 계층으로 구성되며, 각 계층에서 3 × 3 크기의 필터를 사용하고 ReLU 활성화 함수를 적용한다. 3 × 3 필터는 컴퓨팅 비용을 절감하면서도 충분한 수용 영역을 제공하여 복잡한 패턴과 세부적인 텍스처를 효과적으로 학습할 수 있도록 설계되었다. 이러한 심층 네트워크는 다양한 이미지 특징을 추출하고 고해상도로 복원하기 위해 중요한 역할을 한다.

VDSR의 또 다른 핵심 특징은 잔차 학습(Residual Learning)을 도입한 구조이다. 잔차 학습은 네트워크가 저해상도 이미지와 고해상도 이미지 간의 차이(잔차)를 학습하도록 설계되었으며, 이를 통해 복원 과정을 단순화하고 학습의 효율성을 높인다. 이 접근법은 특히 깊은 네트워크에서 발생할 수 있는 기울기 소실 문제를 완화하여 안정적인 학습을 가능하게 한다. 또한, VDSR은 입력 이미지를 업샘플링하여 네트워크에 입력함으로써 다양한 스케일의 초해상도 복원을 지원한다. 이 설계는 모델이 다양한 해상도의 이미지를 효과적으로 처리하며, 초해상도 복원 작업에서의 적용 범위와 성능을 더욱 향상시킨다.

RCAN은 초해상도 문제에서 복잡한 이미지 구조와 채널 간 정보를 효과적으로 활용하기 위해 설계된 딥러닝 기반 모델이다(Zhang et al., 2018). RCAN은 Residual Block을 기반으로 하며, 각 블록 내에 채널 주의 메커니즘(Channel Attention Mechanism)을 통합하여 중요한 채널 정보를 강조하고 불필요한 정보를 억제한다. 채널 주의 메커니즘은 입력 특징 맵의 전역 정보를 학습하고, 각 채널의 상대적 중요도를 계산하여 주목할 채널을 선택적으로 강조한다. 이를 통해 모델은 복잡한 패턴과 구조를 더 잘 학습하며, 고해상도 이미지 복원에서의 성능을 극대화한다. 또한, RCAN은 Residual Block의 구조적 장점을 활용하여 심층 네트워크에서도 안정적인 학습을 가능하게 하며, 초해상도 복원 작업에서 우수한 결과를 제공한다(He et al., 2016). 이처럼 RCAN은 채널 간 중요도 학습을 통해 복잡한 이미지의 구조적 특징을 효과적으로 활용하며, 초해상도 복원 작업에서의 효율성과 성능을 동시에 강화한다. 이러한 특성은 RCAN이 초해상화 모델 설계에서 채널 주의 메커니즘의 유용성을 입증하는 데 중요한 기여를 했음을 보여준다.

SwinIR은 Transformer 기반 초해상도 및 이미지 복원(Image Restoration) 문제를 해결하기 위해 설계된 모델로, Swin Transformer의 윈도우 기반 자기 주의와 계층적 구조를 활용한다(Liang et al., 2021; Liu et al., 2021). 이러한 설계는 다양한 해상도의 이미지를 효율적으로 처리할 수 있는 유연성을 제공한다. 해당 모델은 residual swin transformer block (RSTB)을 기반으로 하며, 각 블록은 Window Attention Mechanism을 통해 지역적 정보를 학습한다. 잔차 연결(residual connection)을 통해 학습 안정성을 확보하고, 계층적 구조를 통해 네트워크의 깊이를 조절함으로써 복잡한 이미지 패턴을 효과적으로 학습할 수 있다. SwinIR의 Window Attention Mechanism은 지역적 정보의 집중적인 학습을 가능하게 하며, 계층적 구조는 전역적(contextual) 및 세부적(local) 정보를 결합하여 다양한 해상도와 복잡성을 가진 이미지에서도 우수한 복원 성능을 발휘한다. 또한, Swin Transformer의 ShiftedWindow 설계를 통해 연속적인 윈도우 간 정보 교환을 가능하게 함으로써 모델의 전반적인 표현력을 강화한다. 이를 통해 SwinIR은 초해상도 및 이미지 복원 작업에서 정교한 텍스처 재구성과 노이즈 억제에 탁월한 성능을 보인다.

3.1. 제안 모델

본 연구에서는 ERS-1 및 ERS-2 위성 영상의 초해상화 복원을 위해 기존 SwinIR 모델을 기반으로 한 Transformer 구조를 개선하여 제안된 모델을 설계하였다. 제안된 모델은 ERS-1 및 ERS-2 위성 영상 데이터의 복잡한 특성인 기하학적 왜곡, 잡음, 지형적 변화 등을 효과적으로 학습하기 위해 window attention과 global attention을 결합한 Combined AttentionMechanism을 도입하였다. 이 메커니즘은 지역 적정보뿐만 아니라 전역적(contextual) 정보를 동시에 학습할 수 있도록 설계되어 ERS-1 및 ERS-2 위성 영상에서 나타나는 다양한 특성을 정교하게 복원할 수 있도록 한다. 또한, edge enhance residual block (EERB)은 경계 정보 복원을 강화하기 위해 설계되었으며, RSTB의 출력 뒤에 배치되어 학습된 특징을 추가적으로 강화한다. Fig. 1에 제시된 전체 구조와 (a)에 EERB의 상세 구조가 나타나 있다.

Fig. 1. Overall architecture of the Enhanced SwinIR model. (a) A detailed structure of the edge enhance residual block (EERB).

EERB는 Sobel 필터를 학습 가능한 형태로 변환하여 입력 데이터에서 X 및 Y 방향의 엣지를 감지한 후, 이를 결합해 최종 엣지 정보를 생성한다. 생성된 엣지 정보는 RSTB에서 학습된 특징 정보와 결합되며, 96개의 합성곱 필터를 활용해 풍부한 특징 표현을 학습할 수 있도록 설계되었다. 또한 ELU 활성화 함수를 채택하여 다양한 특징 정보를 보존하며, Residual Scaling을 적용해 출력 값의 크기를 조정하여 모델의 안정성을 높였다. 최종적으로, 학습된 특징과 계산된 엣지를 결합하여 강화된 출력 데이터를 생성한다.

3.2. 데이터 셋 및 세부 파라미터

본 연구에서는 SAR 영상 기반의 원본 데이터 2,378장에 대해 학습, 검증, 테스트 데이터셋을 70:15:15 비율로 분할하였다. 이후 학습 데이터셋은 90°, 180°, 270° 회전과 상하/좌우 반전이 포함된 데이터 증강(data augmentation)을 적용하여 총 9,984장으로 증강하였다. 이 과정을 통해 SAR 영상의 다양한 방향성과 특성을 학습할 수 있도록 하였다. 검증 데이터셋과 테스트 데이터셋은 원본 데이터를 기반으로 슬라이딩 윈도우 방식을 사용하여 각각 2,142개의 256 × 256 크기 패치(patch)를 생성하였다. 이때, 각 이미지에서 최대 6개의 패치만 추출되며 패치들은 겹치지 않게 추출되었다. 검증과 테스트 데이터셋은 증강 없이 원본 데이터를 그대로 사용하여 모델 성능을 학습 데이터에 의존하지 않고 객관적으로 평가할 수 있도록 구성하였다.

학습을 위해 SAR 영상을 다운샘플링(downsampling)하였으며, 다운샘플링에는 가장자리의 세부정보를 잘 보존하는 Bicubic Interpolation 방식을 사용하였다(He et al., 2020; Kang et al., 2012). 학습 데이터는 저해상도와 고해상도 이미지 쌍으로 구성되었으며, 데이터의 예시는 Fig. 2에 제시되어 있다. Fig. 2(a)는 Bicubic Interpolation을 통해 생성된 저해상도 이미지, Fig. 2(b)는 원본 고해상도 이미지쌍을 시각적으로 보여준다.

Fig. 2. Sample image of the ERS-1 and ERS-2 satellite images. (a) The low-resolution image and (b) the high-resolution image.

모델 학습에는 Adam옵티마이저(optimizer)를 사용하였으며, 초기 학습률은1e-4로설정하였다. 학습률스케줄링에는CosineAnnealingLR을 적용하여 학습률을 점진적으로 감소시킴으로써 안정적이고 효율적인 학습을 유도하였다. 이를 통해 학습 초기에는 빠른 수렴을, 학습 후반부에는 과적합 방지를 통해 최적의 성능에 도달하도록 설계하였다. 실험에 사용된 주요 파라미터(parameter)는 Table 1과 같다.

Table 1 Model architecture configuration

ParameterValue
Epoch200
Batch Size12
OptimizerAdam
Learning Rate1e-4
SchedulerCosineAnnealingLR
Attention Window Size4
Residual Scaling0.1
Loss FunctionL1: 1.1, Perceptual: 0.008, Total Variation: 0.003, SSIM: 0.2
Input Size128 × 128
Output Size256 × 256


3.3. 평가 방법

제안된 모델의 복원 성능 평가는 peak signal-to-noise ratio (PSNR), structural similarity index (SSIM), speckle suppression index (SSI)와 같은 대표적인 성능 지표(Wang et al., 2004; Lee, 1980)를 사용하여 수행하였다. 이 지표들은 영상 복원의 정확성과 품질을 평가하는 데 널리 사용되며, 각각의 지표는 복원된 이미지와 원본 이미지 간의 차이를 다양한 측면에서 측정한다.

PSNR은 재구성된 이미지와 원본 이미지 간의 차이를 측정하는 신호 대 잡음비를 의미하며, 재구성된 이미지의 품질을 평가하는 데 사용된다. 여기서 MAXI는 이미지의 최대 픽셀 값이고, RMSE는 평균제곱근 오차이다. PSNR의 계산식은 식(1)과 같다.

PSNR=20log10MAXIRMSE

SSIM은 두 이미지 간의 구조적 유사성을 평가하는 지표로 단순한 픽셀 값의 비교 대신 인간의 시각 인지를 반영하여 두 이미지를 비교한다. SSIM은 밝기, 대비, 구조적 정보를 종합적으로 고려하며, 결과값은 0에서 1 사이를 가진다. 1에 가까울수록 두 이미지가 구조적으로 매우 유사하다는 것을 의미한다. 여기서 μx, μy는 각 이미지 x와 y의 평균, σx2+σy2는 각 이미지 x와 y의 분산, σxy는 두 이미지 사이의 공분산, C1C2는 밝기와 대비의 안정성을 위한 상수값이다. SSIM의 계산식은 식(2)와 같다.

SSIMx,y=2μxμy+C12σxy+C2μx2+μy2+C1σx2+σy2+C2

SSI는 SAR 영상의 스펙클 노이즈 억제 성능을 평가하는 지표로 영상에서 스펙클 노이즈를 얼마나 효과적으로 억제했는지 측정하는데 사용된다. 여기서 σref2는 참조 이미지의 분산,σdif2는 복원된 이미지와 참조 이미지 간의 차이로 인한 분산이다. SSI의 계산식은 식(3)과 같다.

SSI=10log10σref2σdif2

본 연구의 실험은 ERS-1 및 ERS-2 위성 영상의 초해상화 복원을 위한 제안 모델의 성능을 평가하고, 기존 모델과의 비교를 통해 우수성을 입증하는 것을 목표로 한다. 이를 위해 단계적으로 실험을 설계하여 기존 모델의 성능을 평가하고 최적의 복원 성능을 도출하기 위한 주요 파라미터를 선정한 후, 제안 모델의 최종 성능을 확인하였다.

첫 번째로, Transformer 모델이 SAR 영상 복원에서 CNN 기반 모델보다 우수한 성능을 보임을 확인하기 위해 전처리를 적용하지 않은 오리지널 데이터 기반 성능 비교 실험을 진행하였다. 두 번째로, 전처리된 데이터 기반 성능 비교 실험을 통해 전처리가 SAR 영상 복원에 미치는 영향을 평가하였다. 전처리 과정을 적용한 모델 간 성능 변화를 비교하여 스페클 노이즈 완화와 복원 성능 향상에 효과가 있음을 확인하였다. 세 번째로, Attention 메커니즘의 최적 구성을 도출하기 위해 윈도우 크기별 성능 비교 실험을 수행하였다. 다양한 윈도우 크기를 비교하여 지역적 정보와 전역적 정보의 균형을 고려한 최적의 크기를 선정하였다. 네 번째로, 모델 학습에 중요한 영향을 미치는 옵티마이저를 비교하기 위해 성능 비교 실험을 수행하였다. Adam, RAdam, AdamW등 다양한 옵티마이저를 대상으로 SAR 영상 복원에서의 적합성을 평가하였다. 마지막으로, 앞선 실험을 통해 도출한 최적의 파라미터와 구조를 반영하여 수정된 제안 모델의 성능을 평가하였다. 기존 CNN 기반 모델과 Transformer 기반 모델(SwinIR)과 비교하여 제안 모델의 복원 성능을 확인하였다. 각 실험은 해당 조건에서 일관되게 진행되었으며, 모든 실험에서 모델은 200 Epoch 동안 학습되었다. 또한, 모든 실험은 특정 조건에서의 ERS-1 및 ERS-2 위성 영상 복원 성능을 정량적으로 평가하기 위해 다양한 성능 지표(PSNR, SSIM, SSI)를 사용하였다.

4.1. 오리지널 데이터 기반 성능 비교

ERS-1 및 ERS-2 위성 영상 복원 모델의 성능을 비교하기 위해 전처리 없이 원본 데이터셋만을 사용하여 SRCNN, VDSR, RCAN, SwinIR 모델로 실험을 수행하였다. 이 실험은 별도의 전처리나 데이터 증강 없이 모델 자체의 복원 성능을 평가하기 위해 진행되었다. Table 2에 나타난 결과에서 SwinIR 모델이 PSNR, SSIM, SSI 지표에서 가장 높은 성능을 기록하며, Transformer를 활용한 모델이 CNN 기반 모델(SRCNN, VDSR, RCAN)보다 더 나은 복원 성능을 보인다.

Table 2 Performance comparison of models using the original dataset

ModelPSNRSSIMSSI
SRCNN(CNN)18.7040.8185.565
VDSR(CNN)18.8210.8365.945
RCAN(CNN)18.5800.8325.653
SwinIR(Transformer)19.2380.8556.362


4.2. 전처리된 데이터 기반 성능 비교

SAR 영상의 스페클 노이즈로 인해 복원 성능이 저하되는 문제를 완화하기 위해, 본 연구에서는 Lee 필터와 Bilateral 필터를 적용하여 전처리를 수행하였다. 전처리 여부에 따라 데이터를 구분한 뒤, SRCNN, VDSR, RCAN, SwinIR 모델의 복원 성능을 비교하였다. Table 3의 결과에서 전처리를 적용한 데이터(Post)는 전처리를 적용하지 않은 데이터(Pre)에 비해 모든 모델에서 PSNR, SSIM, SSI 지표가 전반적으로 향상된 것으로 나타났다. 특히, SwinIR 모델은 PSNR 23.283, SSIM 0.914, SSI 8.691로 가장 높은 성능을 기록하였다. 이러한 결과는 전처리가 스페클 노이즈 억제와 구조적 유사성 유지를 통해 SAR 영상 복원 성능을 향상시키는 데 중요한 역할을 한다는 점을 보여준다.

Table 3 Evaluation of preprocessing effect on model performance

ModelPSNRSSIMSSI
PrePostPrePostPrePost
SRCNN18.70421.5380.8180.8845.5657.393
VDSR18.82122.9050.8360.9015.9458.282
RCAN18.58022.2140.8320.8945.6537.592
SwinIR19.23823.2830.8550.9146.3628.691


4.3. Attention 윈도우 크기별 성능 비교

Attention 윈도우 크기는 모델이 학습하는 지역적 정보의 범위를 결정하는 핵심 요소로, 본 연구에서는 윈도우 크기를 3, 4, 5로 설정하여 성능을 비교하였다. 실험 결과는 Table 4와 같다. 윈도우 크기 4에서 PSNR 23.314, SSIM0.916, SSI 8.691로 가장 높은 복원 성능을 기록했으며, 이는 지역적 정보와 전역적 정보 간의 균형이 가장 적절한 설정임을 보여준다.

Table 4 Performance comparison based on attention window size

SizePSNRSSIMSSI
323.3030.8678.682
423.3140.9168.691
522.6200.9058.628


4.4. 옵티마이저 별 성능 비교

ERS-1 및 ERS-2 위성 영상의 복원 성능을 극대화하기 위해 AdamW, RAdam, Adam 옵티마이저를 비교하였다. 동일한 학습 설정에서 진행된 실험 결과는 Table 5와 같다. AdamW는 정규화와 일반화 성능에서 강점을 가지지만, 복잡한 데이터의 세부 정보 학습에서는 다소 제한적이다. RAdam은 학습 안정성을 높이는 특성을 가지고 있으나, 높은 복잡도의 SAR 영상 복원에는 성능이 부족하다. 반면, Adam 옵티마이저는 PSNR 23.284, SSIM 0.916, SSI 8.662로 다른 옵티마이저보다 뛰어난 성능을 보인다.

Table 5 Performance comparison of optimizers for SAR image restoration

OptimizerPSNRSSIMSSI
AdamW23.2740.9168.651
RAdam23.2510.9158.629
Adam23.2840.9168.662


Fig. 3은 서로 다른 옵티마이저를 사용하여 복원된 SAR 영상을 비교한 결과를 보여준다. (a)는 AdamW를 사용하여 생성된 이미지를, (b)는 RAdam을 사용하여 생성된 이미지를, (c)는 Adam을 사용하여 생성된 이미지를, (d)는 생성된 이미지들의 고해상도 이미지를 나타낸다. 위 옵티마이저 중 Adam 옵티마이저는 가장 선명한 엣지와 세부 디테일을 복원하며, 스페클 노이즈 억제 측면에서도 우수한 성능을 보인다.

Fig. 3. Images generated by different optimizers: (a) AdamW, (b) Radam, (c) Adam, and (d) high-resolution images.

4.5. 제안 모델 성능 평가

Table 6은 제안 모델(Enhanced SwinIR)의 성능 평가 결과를 보여준다. 실험 결과, 제안 모델은 CNN 기반 모델(SRCNN, VDSR, RCAN)에 비해 PSNR, SSIM, SSI 지표에서 전반적으로 더 우수한 성능을 나타냈다. 특히, SSI에서 높은 값을 기록하며 스페클 노이즈 억제와 구조적 정보 복원 측면에서 우수한 성능을 보인다.

Table 6 Performance evaluation of the proposed model compared to baseline methods

ModelPSNRSSIMSSI
SRCNN21.5940.8737.174
VDSR23.1560.9028.296
RCAN22.6200.9037.998
SwinIR23.5670.9098.586
Enhanced SwinIR (our)23.4130.9128.653


SwinIR과 제안 모델을 비교한 결과, 제안 모델은 SSIM및 SSI 지표에서 더 높은 값을 기록하여 구조적 유사성과 스페클 노이즈 억제 성능이 개선되었음을 보여준다. 반면, SwinIR은 PSNR 지표에서 소폭 우위를 보였으나, 이는 픽셀 간 차이를 최소화하는 데 중점을 둔 결과로 해석된다. 이러한 결과는 제안 모델이 SAR 영상 복원에서 CNN 기반 모델 대비 뛰어난 성능을 발휘함과 동시에 기존 Transformer 기반 모델인 SwinIR의 한계를 효과적으로 보완하였다.

Fig. 4는 제안 모델을 포함한 각 모델이 복원한 SAR 영상을 시각적으로 비교한 결과를 보여준다. SRCNN, VDSR, RCAN, SwinIR 등의 기존 모델과 비교했을 때, 제안 모델은 텍스처 유지와 구조적 정보 복원 측면에서 가장 우수한 성능을 보였다. 특히, 복원된 이미지에서 산 맥과 같은 복잡한 구조가 명확히 보존되었으며, 흐릿하거나 손실된 부분이 크게 줄어들었다.

Fig. 4. Comparison showing restored SAR images by different models: (a) SRCNN, (b) VDSR, (c) RCAN, (d) SwinIR, (e) enhanced SwinIR (proposed model), and (f) high-resolution image.

Fig. 4(a) SRCNN의 경우, 네트워크 구조의 단순성으로 인해 복잡한 텍스처와 경계 복원에서 한계가 있었으며, 결과적으로 세부 텍스처가 손실되고 경계가 명확하지 않아 전체적으로 흐릿한 결과를 나타냈다. Fig. 4(b) VDSR은 SRCNN보다 더 깊은 네트워크 구조를 사용하여 복원 품질이 개선되었지만, 텍스처 디테일과 경계 복원에서 여전히 제약이 있었다. Fig. 4(c) RCAN은 Residual Channel Attention 메커니즘을 활용하여 구조적 복원과 텍스처 표현이 강화되었으나, 경계의 선명도는 다소 부족하였다. Fig. 4(d) SwinIR은 Self-Attention 메커니즘을 통해 RCAN보다 향상된 텍스처 복원과 경계 표현을 보였으나, 윈도우 기반 처리 방식으로 인해 국소적인 텍스처 복원에서 한계가 있었다.

반면, 제안 모델 Fig. 4(e)는 Combined Attention Mechanism과 EERB를 통해 텍스처 복원과 구조적 경계의 선명도를 효과적으로 유지하였다. 특히, Combined AttentionMechanism은 SAR 영상의 특성을 반영하여 글로벌 및 로컬 정보를 결합함으로써, 경계와 세부 지형 패턴을 더욱 명확히 복원할 수 있었다. EERB는 복잡한 지형 구조와 경계 표현을 강화하여, 세부 디테일의 손실을 최소화하면서 경계의 선명도를 높이는 데 기여하였다. 확대된 영역에서 확인할 수 있듯이, 제안 모델은 산맥의 경계선과 같은 복잡한 지형 패턴을 Fig. 4(f) 고해상도 이미지와 가장 유사하게 표현하였다.

이러한 결과는 정량적 평가 지표에서도 동일하게 나타났다. 제안 모델은 다른 모델 대비 PSNR에서 평균적으로 2.5dB, SSIM에서 0.03, SSI에서 0.07 더 높은 값을 기록하며, 텍스처와 구조적 복원의 균형을 효과적으로 구현하였다. 이는 제안 모델이 SAR 영상 복원에서 기존 모델 대비 더욱 우수한 성능을 제공함을 보여준다.

본 연구에서는 CNN 기반 모델이 장거리 상호작용을 모델링하지 못하고 스페클 노이즈 억제에 한계를 보이는 문제를 Transformer 기반 접근법으로 극복할 수 있음을 입증하였다. 특히, Transformer 모델의 윈도우 기반 로컬 어텐션의 제약을 보완하기 위해 Combined Attention Mechanism과 Edge Enhance Residual Block을 제안하였으며, 이를 통해 SAR 영상 복원에서 구조적 유사도(SSIM)와 스페클 노이즈 억제(SSI) 성능을 크게 향상시켰다. 제안된 방법은 PSNR 지표에서 소폭 낮은 성능을 기록했으나, 구조적 유사도(SSIM)와 스페클 노이즈 억제(SSI) 측면에서 가장 향상된 성능을 보이며, SAR 영상 복원에서 텍스처 유지와 세부 정보 복원에 있어 우수한 성능을 입증하였다.

그러나 본 연구에서 제안한 모델은 몇 가지 한계를 가진다. 첫째, 실험은 ERS-1 및 ERS-2 위성 데이터를 대상으로 수행되었으며, 다양한 SAR 영상에 대한 일반화 성능 검증이 이루어지지 않았다. SAR 영상은 센서 유형, 주파수 대역, 공간 해상도 등에 따라 특성이 상이하므로, 특정 데이터셋에서 학습된 모델이 다른 환경에서도 동일한 성능을 유지할 수 있는지에 대한 추가적인 검증이 필요하다. 둘째, Transformer 기반 모델의 높은 계산 비용과 메모리 요구량은 실시간 응용 가능성을 제한할 수 있다. CNN 기반 모델에 비해 연산량이 많고, 학습 및 추론 과정에서 높은 graphics processing unit (GPU) 메모리를 요구하며, 특히 초해상화 과정에서 입력 이미지 크기가 증가할수록 연산 복잡도가 기하급수적으로 증가하여 실시간 적용이 어려울 가능성이 존재한다. 이러한 한계를 해결하기 위해 경량화된 네트워크 구조 설계 및 최적화된 연산 기법을 적용하여 연산 비용을 절감하는 방안을 고려할 필요가 있다.

향후 연구에서는 다양한 공간 해상도를 고려한 추가 학습 데이터 구축을 통해 모델의 성능을 개선하고, ERS SAR 영상뿐만 아니라 보다 높은 해상도의 SAR 영상에서도 복원 성능을 평가하는 것이 중요하다. 또한, 다양한 해상도 조건에서 복원 모델의 일반화 성능을 확보함으로써 실용성을 극대화하는 방향으로 SAR 영상 복원 기술의 적용 범위를 확장하는 것이 필요하다.

본 연구에서는 European Remote-Sensing Satellite (ERS)에서 획득한 SAR 영상의 복원 성능을 향상시키기 위해 기존 SwinIR 모델의 구조를 개선한 Enhanced SwinIR 모델을 제안하였다. 제안 모델은 SAR 영상의 전역적 문맥 정보를 보완하기 위한 윈도우 기반 로컬 어텐션과 전역 어텐션을 결합한 Combined AttentionMechanism과 경계 정보 복원을 강화하기 위한 Edge Enhance Residual Block을 도입하여 설계하였다. ERS-1 및 ERS-2 위성 데이터를 활용한 실험 결과, 제안 모델은 CNN 기반 모델인 SRCNN, VDSR, RCAN 및 기존 SwinIR 모델 대비 PSNR, SSIM, SSI 지표에서 향상된 성능을 기록하였다. 특히, 구조적 유사성과 스페클 노이즈 억제 성능에서 우수한 결과를 보이며, Transformer 기반 모델이 SAR 영상 복원에서 기존 접근법 대비 효과적인 대안임을 입증하였다.

본 과제(결과물)는 2024년도 교육부의 재원으로 한국연구재단의 지원을 받아 수행된 지자체-대학 협력기반 지역혁신 사업의 결과임(2021RIS-004).

No potential conflict of interest relevant to this article was reported.

  1. Cordonnier, J.-B., Loukas, A., and Jaggi, M., 2019. On the relationship between self-attention and convolutional layers. arXiv preprint arXiv:1911.03584. https://doi.org/10.48550/arXiv.1911.03584
  2. Dong, C., Loy, C. C., He, K., and Tang, X., 2016. Image super-resolution using deep convolutional networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(2), 295-307. https://doi.org/10.1109/TPAMI.2015.2439281
  3. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., and Unterthiner, T., et al, 2021. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. https://doi.org/10.48550/arXiv.2010.11929
  4. Elsayed, G., Ramachandran, P., Shlens, J., and Kornblith, S., 2020. Revisiting spatial invariance with low-rank local connectivity. arXiv preprint arXiv:2002.02959. https://doi.org/10.48550/arXiv.2002.02959
  5. ESA eoPortal, 2024. ERS-1 (European Remote-Sensing Satellite-1). Available online: https://www.eoportal.org/satellite-missions/ers-1 (accessed on Jan. 31, 2025)
  6. He, K., Zhang, X., Ren, S., and Sun, J., 2016. Deep residual learning for image recognition. In Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, June 26-July 1, pp. 770-778. https://doi.org/10.1109/CVPR.2016.90
  7. Kang, X., Li, S., and Hu, J., 2012. Fusing soft-decision-adaptive and bicubic methods for image interpolation. In Proceedings of the 21st International Conference on Pattern Recognition (ICPR), Tsukuba, Japan, Nov. 11-15, pp. 1043-1046.
  8. Kim, J., Lee, J. K, and Lee, K. M, 2016. Accurate image super-resolution using very deep convolutional networks. In Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, June 26-July 1, pp. 1646-1654. https://doi.org/10.1109/CVPR.2016.182
  9. Kim, S. W., 2010. A comparison of InSAR techniques for deformation monitoring using multi-temporal sar. Korean Journal of Remote Sensing, 26(2), 143-151. https://doi.org/10.7780/kjrs.2010.26.2.143
  10. Kim, T. W., and Han, H. S., 2022. Analysis of surface displacement of oil sands region in Alberta, Canada using Sentinel-1 SAR time series images. Korean Journal of Remote Sensing, 38(2), 139-151. https://doi.org/10.7780/kjrs.2022.38.2.1
  11. Ko, U., Seo, I., Lee, J., and Jeong, H., 2021. Current trends of the synthetic aperture radar (SAR) satellite development and future strategy for the high resolution wide swath (HRWS) SAR satellite development. Journal of Space Technology and Applications, 1(3), 337-355. https://doi.org/10.52912/jsta.2021.1.3.337
  12. Kumar, D., 2021. Urban objects detection from C-band synthetic aperture radar (SAR) satellite images through simulating filter properties. Scientific Reports, 11, 6512. https://doi.org/10.1038/s41598-021-85121-9
  13. Ledig, C., Theis, L., Huszar, F., Caballero, J., Cunningham, A., and Acosta, A., et al, 2017. Photo-realistic single image super-resolution using a generative adversarial network. In Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, July 22-26, pp. 4681-4690. https://doi.org/10.1109/CVPR.2017.19
  14. Lee, J.-S., 1980. Digital image enhancement and noise filtering by use of local statistics. IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-2(2), 165-168. https://doi.org/10.1109/TPAMI.1980.4766994
  15. Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L., and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. arXiv preprint arXiv:2108.10257. https://doi.org/10.48550/arXiv.2108.10257
  16. Lim, B., Son, S., Kim, H., Nah, S., and Lee, K. M., 2017. Enhanced deep residual networks for single image super-resolution. In Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Honolulu, HI, USA, July 21-26, pp. 1132-1140. https://doi.org/10.1109/CVPRW.2017.151
  17. Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., and Zhang, Z., et al, 2021. Swin transformer: Hierarchical vision transformer using shifted windows. arXiv preprint arXiv:2103.14030. https://doi.org/10.48550/arXiv.2103.14030
  18. Mason, D. C., Giustarini, L., Garcia-Pintado, J., and Cloke, H. L., 2014. Detection of flooded urban areas in high resolution synthetic aperture radar images using double scattering. International Journal of Applied Earth Observation and Geoinformation, 28, 150-159. https://doi.org/10.1016/j.jag.2013.12.002
  19. Nair, V., and Hinton, G. E., 2010. Rectified linear units improve restricted Boltzmann machines. In Proceedings of the 27th International Conference on Machine Learning, Haifa, Israel, June 21-24, pp. 807-814.
  20. NASA Earthdata, 2024. ERS-2 (European Remote Sensing Satellite-2). Available online: https://www.earthdata.nasa.gov/data/catalog/alaska-satellite-facility-distributed-active-archive-center-ers-2-version-1 (accessed on Jan. 31, 2025)
  21. Rad, M. S., Yu, T., Musat, C., Ekenel, H. K., Bozorgtabar, B., and Thiran, J.-P., 2020. Benefiting from bicubically down-sampled images for learning real-world image super-resolution. arXiv preprint arXiv:2007.03053. https://doi.org/10.48550/arXiv.2007.03053
  22. Rosen, P. A., Hensley, S., Joughin, I. R., Li, F. K., and Madsen, S. N., et al, 2000. Synthetic aperture radar interferometry. Proceedings of the IEEE, 88(3), 333-382. https://doi.org/10.1109/5.838084
  23. Small, D., Schubert, A., and Meier, E., 2023. Evaluating sar radiometric terrain correction products. Remote Sensing, 15(21), 5110. https://doi.org/10.3390/rs15215110
  24. Vaswani, A., Ramachandran, P., Srinivas, A., Parmar, N., Hechtman, B., and Shlens, J., 2021. Scaling local self-attention for parameter efficient visual backbones. arXiv preprint arXiv:2103.12731. https://doi.org/10.48550/arXiv.2103.12731
  25. Wang, X., Yu, K., Wu, S., Gu, J., Liu, Y., and Dong, C., et al, 2018. ESRGAN: Enhanced super-resolution generative adversarial networks. In: Leal-Taixé, L., Roth, S., (eds.), Computer Vision - ECCV 2018 Workshops, Springer, pp. 63-79. https://doi.org/10.1007/978-3-030-11021-5_5
  26. Wang, Z., Bovik, A. C., Sheikh, H. R., and Simoncelli, E. P., 2004. Image quality assessment: From error visibility to structural similarity. IEEE Transactions on Image Processing, 13(4), 600-612. https://doi.org/10.1109/TIP.2003.819861
  27. Zhang, K., Zuo, W., Gu, S., and Zhang, L., 2017. Learning deep CNN denoiser prior for image restoration. arXiv preprint arXiv:1704.03264. https://doi.org/10.48550/arXiv.1704.03264
  28. Zhang, Y., and Ban, Y., 2019. The super-resolution reconstruction of SAR image based on the improved FSRCNN. The Journal of Engineering, 2019(19), 5975-5978. https://doi.org/10.1049/joe.2019.0324
  29. Zhang, Y., Li, K., Li, K., Wang, L., Zhong, B., and Fu, Y., 2018. Image super-Resolution using very deep residual channel attention networks. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y., (eds.), Computer Vision - ECCV 2018, Springer, pp. 294-310. https://doi.org/10.1007/978-3-030-01234-2_18

Research Article

Korean J. Remote Sens. 2025; 41(1): 143-152

Published online February 28, 2025 https://doi.org/10.7780/kjrs.2025.41.1.12

Copyright © Korean Society of Remote Sensing.

Transformer 기반 딥러닝 모델을 활용한 ERS SAR 영상 초해상화 연구

Jun-Won Lee1 , Seung-Won Yoon2 , Kyu-Chul Lee3*

1충남대학교 컴퓨터공학과 석사과정생
2충남대학교 컴퓨터공학과 박사과정생
3충남대학교 컴퓨터공학과 교수

Received: January 20, 2025; Revised: February 3, 2025; Accepted: February 5, 2025

Transformer-Based Deep Learning Models for ERS SAR Image Super-Resolution

Jun-Won Lee1 , Seung-Won Yoon2 , Kyu-Chul Lee3*

1Master Student, Department of Computer Science, Chungnam National University, Daejeon, Republic of Korea
2PhD Student, Department of Computer Science, Chungnam National University, Daejeon, Republic of Korea
3Professor, Department of Computer Science, Chungnam National University, Daejeon, Republic of Korea

Correspondence to:Kyu-Chul Lee
E-mail: kclee@cnu.ac.kr

Received: January 20, 2025; Revised: February 3, 2025; Accepted: February 5, 2025

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Abstract

Synthetic aperture radar (SAR) image restoration plays a crucial role in enhancing spatial resolution and suppressing noise, enabling various applications such as terrain analysis, disaster monitoring, and military reconnaissance. However, SAR images exhibit speckle noise, strong directional characteristics, and multiple scattering effects, making them challenging to process with conventional image restoration techniques. To address these challenges, convolutional neural network (CNN)-based models such as superresolution convolutional neural network (SRCNN), very deep super-resolution (VDSR), and residual channel attention network (RCAN) have been widely employed. While these models effectively capture local features, they are limited in modeling the complex structural characteristics and long-range dependencies inherent in SAR imagery, leading to suboptimal restoration of fine details. In this study, we propose Enhanced SwinIR, an improved Transformer-based model designed to overcome these limitations. The proposed model integrates the Combined Attention Mechanism, which fuses window-based local attention with global attention and incorporates the Edge Enhance Residual Block, which employs a learnable Sobel filter to improve edge preservation. Experimental evaluations using SAR images from the ERS-1 and ERS-2 satellites demonstrate that the Enhanced SwinIR model outperforms CNN-based models (SRCNN, VDSR, RCAN), achieving a peak signal-to-noise ratio (PSNR) of 23.413 dB, an increase of 0.956 dB compared to the CNN average of 22.457 dB. Additionally, it achieves a structural similarity index (SSIM) of 0.912, surpassing the CNN average of 0.893 by 0.019, and a speckle suppression index (SSI) of 8.653, an improvement of 0.830 over the CNN average of 7.823. Furthermore, compared to the original SwinIR, Enhanced SwinIR improves SSIM by 0.003 and SSI by 0.067. These results confirm that Enhanced SwinIR significantly enhances SAR image restoration performance, particularly in terms of structural similarity and speckle noise suppression.

Keywords: SAR image restoration, ERS satellite data, Transformer-based model, Super-resolution

요약

합성개구레이더(synthetic aperture radar, SAR) 영상 복원은 해상도를 향상시키고 노이즈를 억제하여 다양한 응용 분야에서 활용된다. 그러나 SAR 영상은 스페클 노이즈(speckle noise), 강한 방향성, 다중 산란 등의 특성을 가지며, 기존 영상 복원 기법으로 처리하기 어려운 한계가 있다. 이를 해결하기 위해 기존에는 초해상화 합성곱 신경망(super-resolution convolutional neural network, SRCNN), 심층 초해상화(very deep super-resolution, VDSR), 잔차 채널 어텐션 네트워크(residual channel attention network, RCAN) 등 convolutional neural network (CNN) 기반 모델이 활용되어 왔다. 그러나 이러한 모델들은 지역적 특징 학습에는 효과적이지만, SAR 영상의 복잡한 구조적 특성과 장거리 의존성을 충분히 모델링하지 못해 세부 패턴 복원에 한계를 가진다. 본 연구에서는 이러한 문제를 해결하기 위해 Enhanced SwinIR 모델을 제안한다. 제안된 모델은 윈도우 기반 로컬 어텐션(local attention)과 전역 어텐션(global attention을 결합한 Combined Attention Mechanism을 적용하고, 학습 가능한 Sobel 필터를 포함한 Edge Enhance Residual Block을 통합하여 엣지 복원 성능을 향상시켰다. ERS-1 및 ERS-2 위성의 SAR 영상을 활용한 실험 결과, Enhanced SwinIR 모델은 CNN 기반 모델(SRCNN, VDSR, RCAN)의 평균 피크 신호 대 잡음비(peak signal-to-noise ratio, PSNR) 22.457dB 대비 0.956dB 증가한 23.413dB, 구조적 유사도 지수(structural similarity index, SSIM) 0.893 대비 0.019 증가한 0.912, 스페클 노이즈 억제 지수(speckle suppression index, SSI) 7.823 대비 0.830 증가한 8.653의 성능을 기록하였으며, 기존 SwinIR 대비 SSIM은 0.003, SSI는 0.067 더 높은 성능을 보였다. 이를 통해 Enhanced SwinIR이 SAR 영상 복원에서 구조적 유사성과 스페클 노이즈 측면에서 향상된 복원 성능을 보였음을 확인하였다.

주요어: SAR 영상 복원, ERS 위성 데이터, Transformer 기반 모델, 초해상화

1. 서론

이미지 초해상화(super-resolution, SR)는 저해상도 이미지를 기반으로 고해상도 이미지를 복원하는 기술로, 컴퓨터 비전 및 이미지 처리 분야에서 중요한 역할을 한다. SR 기술은 의료 영상에서 질병 진단의 정확도를 높이고, 보안 감시에서 객체 식별 성능을 향상시키며, 위성영상을 활용한 재난 관리와 지형 분석 등 다양한 분야에서 고품질 데이터를 제공하여 데이터 해석의 신뢰도를 크게 향상시킨다(aRosen et al., 2000; Mason et al., 2014; Dong et al., 2016). 고해상도 복원 기술은 재난 대응, 농업 모니터링, 군사 정찰 등 다양한 분야에서 정보의 활용도를 극대화할 수 있다. 예를 들어, 재난 지역에서는 구조 활동의 정확도와 속도를 향상시키고, 농업에서는 작물 생장 상태를 보다 정밀하게 분석하며, 군사 정찰에서는 신뢰성 높은 목표 탐지 및 전략 수립을 지원할 수 있다(Ko et al., 2021; Rosen et al., 2000).

최근 SAR 위성의 발사가 증가하며 다양한 환경 조건에서 데이터를 수집할 수 있는 SAR 영상의 활용 가능성이 급격히 확대되고 있다(Ko et al., 2021). 이 중 유럽우주국(European Space Agency, ESA)이 1991년과 1995년에 발사한 European Remote Sensing (ERS) 위성 시리즈는 지구 환경 모니터링, 기후 변화 분석, 해양 및 대기 연구, 재해감시 등을 목적으로 설계되었다. ERS-1/2 위성은 C-밴드 SAR 이미징 기술를 탑재하여 광범위한 지역에서 고해상도 SAR 영상을 제공하였으며, 현재는 운용이 종료되었으나 30년 이상 축적된 위성 SAR 영상은 여전히 다양한 연구 분야에서 중요한 역할을 한다. 그러나 ERS-1/2 SAR 영상은 30 m의 낮은 해상도를 가지며, 과거 SAR 이미징 기술의 한계로 인해 노이즈가 많고 세부 지형 분석이 어려운 문제가 있다.

이를 극복하고 ERS-1/2 데이터를 보다 효과적으로 활용하기 위해 초해상화 기법 적용이 필수적이다. 초해상화된 ERS-1/2 SAR 영상은 최신 위성 데이터(Sentinel-1 등)와 비교 분석이 가능하며, 장기적인 환경 변화 연구와 과거 데이터의 정밀한 해석을 가능하게 한다(Kim et al., 2010; Kim and Han, 2022). 이러한 문제를 해결하기 위해 SR 기술이 주목받고 있으며, 이 기술은 저해상도의 SAR 영상을 복원하여 데이터 품질을 높이는 데 중요한 역할을 한다(Zhang and Ban, 2019). SR 기술을 적용하면 기존 위성 하드웨어의 업그레이드 없이 데이터의 품질을 향상시킬 수 있어 경제적인 이점을 제공한다.

위성 SAR영상의 이미지 복원(imagerestoration)은 주로 convolutional neural network (CNN) 기반 방법론이 주를 이루어 왔다. CNN은 합성곱 연산을 통해 지역적 정보를 효과적으로 처리하며, SAR 영상 복원 및 노이즈 제거에서 뛰어난 성능을 보여왔다(Ledig et al., 2017; Lim et al., 2017). 그러나 CNN은 동일한 커널(kernel)을 사용해 이미지를 처리하는 구조적 특성으로 인해, SAR 영상의 다양한 특성을 효과적으로 반영하는 데 한계를 가진다. SAR 영상은 관측 지역의 지형, 표면 거칠기, 수분 함량, 인공 구조물의 밀집도 등에 따라 반사 특성이 크게 달라지며, 동일한 지역에서도 촬영 각도와 관측 조건에 따라 영상의 패턴이 변화할 수 있다이러한 특성은 스페클 노이즈(speckle noise)의 강도 변화, 이미지의 강한 방향성, 높은 동적 범위(dynamic range), 다중 산란(multiple scattering) 등으로 인해 CNN이 정해진 커널로 일관되게 학습하기 어려운 요인으로 작용한다. 따라서 CNN 기반 모델은 SAR 영상의 다양한 구조적 특징을 충분히 반영하지 못하고, 복잡한 패턴과 세부 정보를 복원하는 데 어려움을 겪는다. 또한, 픽셀 간 장거리 상호작용(long-range interactions)을 효과적으로 모델링하지 못해 세부적인 품질 향상을 제한하는 문제가 있다(Cordonnier et al., 2019; Elsayed et al., 2020; Vaswani et al., 2021).

최근 Transformer 기반 접근법은 자기-어텐션(self-attention) 메커니즘(mechanism)을 통해 전역적 상호작용을 모델링하며, 이미지 복원 작업에서 새로운 가능성을 제시하고 있다(Wang et al., 2018; Zhang et al., 2017). Swin Transformer는 CNN과 Transformer의 장점을 결합한 구조로, 로컬 어텐션(local attention)을 활용해 효율적으로 이미지를 처리하면서도 전역적 문맥 정보를 단계적으로 확장할 수 있는 가능성을 보여주었다(Liu et al., 2021). 하지만 Swin Transformer 역시 윈도우(window) 기반 로컬 어텐션의 구조적 특성으로 인해 복잡한 SAR 영상에서 중요한 엣지 정보인 산맥, 해안선, 도로, 건물과 같은 지형 및 인공 구조물의 경계와 세부 구조인 지면의 거칠기, 작은 지형 변화, 수로 패턴 등을 효과적으로 복원하는 데 한계를 보인다. 본 연구는 이러한 한계를 극복하기 위해 ERS-1과 ERS-2 위성에서 수집된 SAR 영상을 대상으로 기존 SwinIR 모델의 윈도우 기반 로컬 어텐션의 한계를 보완하고 엣지 보존 성능을 강화한 새로운 Transformer 기반 초해상화 모델을 제안한다. 본 논문은 다음과 같이 구성되어 있다. 2장에서는 연구에 사용된 데이터와 관련 연구를 설명한다. 3장에서는 제안된 모델의 구조와 실험 방법에 대해 상세히 기술하며, 기존 모델과의 비교를 통해 성능을 평가한다. 4장에서는 본 연구의 결론과 향후 연구 방향을 제시한다.

2. 연구 자료

2.1. 연구 대상 및 데이터 출처

본 연구에서는 유럽우주국에서 제공하는 ERS-1 및 ERS-2 위성의 SAR 영상을 사용하였다(Dosovitskiy et al., 2021). ERS 위성은 C-밴드(5.3GHz) 레이더를 이용하여 지구 관측을 수행하며, 본 연구에서는 ImageMode에서 촬영된 SAR 영상을 활용하였다. 사용된 데이터는 ESA의 SAR 데이터 아카이브에서 수집되었으며, Level 1 Medium Resolution (SAR_IMM_1P) 포맷으로 제공된다. 해당 데이터는 방사 보정(radiometric calibration), 기하학적 보정(geometric correction), 열 잡음 제거(thermal noise removal) 등의 기본적인 전처리가 적용된 상태이다(Small et al., 2023; Kumar, 2021).

수집된 SAR 영상은 슬랜트 범프 정렬(slant range projection)이 적용된 강도(intensity) 영상이며, 해상도 측면에서 range resolution과 azimuth resolution은 각각 26 × 6 m이다. Ground range projection을 적용하면 약 30 × 30 m의 공간 해상도를 갖는다(NASA Earthdata, 2024). 또한, ERS SAR 시스템의 신호 대 잡음비(signal-to-noise ratio, SNR) 및 등가 레이더 단면적(equivalent radar cross-section, ERCS)을 고려했을 때, 해당 데이터의 noise equivalent sigma zero (NESZ)는 약 –22 dB이다(ESA eoPortal, 2024).

2.2. 관련 연구

SAR 영상 복원 연구는 CNN기반 모델에서 Transformer 기반 모델로 확장되며 성능이 점진적으로 향상되었다. CNN 기반 모델은 지역적 특징을 효과적으로 학습하지만 장거리 상호작용을 모델링하는 데 한계를 가진다. 이를 보완하기 위해 Transformer 기반 모델이 도입되었으며, 자기-어텐션 메커니즘을 활용하여 전역 정보를 효과적으로 학습하는 방식으로 발전해왔다. CNN 기반 초해상화 모델로는 super-resolution convolutional neural network (SRCNN), very deep super-resolution (VDSR), residual channel attention network (RCAN) 등이 있으며, 각각 단순한 네트워크 구조, 심층 네트워크 학습, 채널 주의 메커니즘을 적용하여 복원 성능을 향상시켰다. Transformer 기반 모델 중 SwinIR은 Swin Transformer 구조를 활용하여 지역적 정보와 전역 정보를 효과적으로 결합하지만, 윈도우 기반 어텐션의 한계로 인해 복잡한 SAR 영상에서 세부 구조 복원에 어려움이 있다. 본 연구에서는 기존의 대표적인 CNN 기반 초해상화 모델(SRCNN, VDSR, RCAN)과 최신 Transformer 기반 모델(SwinIR)을 비교 대상으로 선정하였다.

SRCNN은 초해상도 문제를 해결하기 위해 제안된 최초의 CNN기반 모델 중 하나로, 저해상도 이미지를 고해상도로 복원하기 위한 딥러닝 모델의 초기 설계를 제시하였다(Dong et al., 2016). 이 모델은 3개의 합성곱 계층으로 구성되며, 각 계층은 입력 이미지의 특징 추출 및 복원을 위해 서로 다른 필터 크기를 활용한다. 첫 번째 계층은 9 × 9 크기의 필터를 사용하여 입력 이미지에서 저주파 정보를 추출하고, 두 번째 계층은 1 × 1 필터를 통해 비선형 매핑을 수행하며, 세 번째 계층은 5 × 5 필터를 적용하여 고해상도 이미지를 재구성한다. 각 계층에서는 ReLU활성화 함수를 통해 비선형성을 부여하며, 입력 이미지는 업샘플링된 상태에서 모델에 입력된다(Nair and Hinton, 2010).

VDSR은 초해상도 문제를 해결하기 위해 제안된 딥러닝 기반 모델로 깊은 네트워크 구조를 통해 복원 성능을 크게 향상시켰다(Kim et al., 2016). 이 모델은 20개의 합성곱 계층으로 구성되며, 각 계층에서 3 × 3 크기의 필터를 사용하고 ReLU 활성화 함수를 적용한다. 3 × 3 필터는 컴퓨팅 비용을 절감하면서도 충분한 수용 영역을 제공하여 복잡한 패턴과 세부적인 텍스처를 효과적으로 학습할 수 있도록 설계되었다. 이러한 심층 네트워크는 다양한 이미지 특징을 추출하고 고해상도로 복원하기 위해 중요한 역할을 한다.

VDSR의 또 다른 핵심 특징은 잔차 학습(Residual Learning)을 도입한 구조이다. 잔차 학습은 네트워크가 저해상도 이미지와 고해상도 이미지 간의 차이(잔차)를 학습하도록 설계되었으며, 이를 통해 복원 과정을 단순화하고 학습의 효율성을 높인다. 이 접근법은 특히 깊은 네트워크에서 발생할 수 있는 기울기 소실 문제를 완화하여 안정적인 학습을 가능하게 한다. 또한, VDSR은 입력 이미지를 업샘플링하여 네트워크에 입력함으로써 다양한 스케일의 초해상도 복원을 지원한다. 이 설계는 모델이 다양한 해상도의 이미지를 효과적으로 처리하며, 초해상도 복원 작업에서의 적용 범위와 성능을 더욱 향상시킨다.

RCAN은 초해상도 문제에서 복잡한 이미지 구조와 채널 간 정보를 효과적으로 활용하기 위해 설계된 딥러닝 기반 모델이다(Zhang et al., 2018). RCAN은 Residual Block을 기반으로 하며, 각 블록 내에 채널 주의 메커니즘(Channel Attention Mechanism)을 통합하여 중요한 채널 정보를 강조하고 불필요한 정보를 억제한다. 채널 주의 메커니즘은 입력 특징 맵의 전역 정보를 학습하고, 각 채널의 상대적 중요도를 계산하여 주목할 채널을 선택적으로 강조한다. 이를 통해 모델은 복잡한 패턴과 구조를 더 잘 학습하며, 고해상도 이미지 복원에서의 성능을 극대화한다. 또한, RCAN은 Residual Block의 구조적 장점을 활용하여 심층 네트워크에서도 안정적인 학습을 가능하게 하며, 초해상도 복원 작업에서 우수한 결과를 제공한다(He et al., 2016). 이처럼 RCAN은 채널 간 중요도 학습을 통해 복잡한 이미지의 구조적 특징을 효과적으로 활용하며, 초해상도 복원 작업에서의 효율성과 성능을 동시에 강화한다. 이러한 특성은 RCAN이 초해상화 모델 설계에서 채널 주의 메커니즘의 유용성을 입증하는 데 중요한 기여를 했음을 보여준다.

SwinIR은 Transformer 기반 초해상도 및 이미지 복원(Image Restoration) 문제를 해결하기 위해 설계된 모델로, Swin Transformer의 윈도우 기반 자기 주의와 계층적 구조를 활용한다(Liang et al., 2021; Liu et al., 2021). 이러한 설계는 다양한 해상도의 이미지를 효율적으로 처리할 수 있는 유연성을 제공한다. 해당 모델은 residual swin transformer block (RSTB)을 기반으로 하며, 각 블록은 Window Attention Mechanism을 통해 지역적 정보를 학습한다. 잔차 연결(residual connection)을 통해 학습 안정성을 확보하고, 계층적 구조를 통해 네트워크의 깊이를 조절함으로써 복잡한 이미지 패턴을 효과적으로 학습할 수 있다. SwinIR의 Window Attention Mechanism은 지역적 정보의 집중적인 학습을 가능하게 하며, 계층적 구조는 전역적(contextual) 및 세부적(local) 정보를 결합하여 다양한 해상도와 복잡성을 가진 이미지에서도 우수한 복원 성능을 발휘한다. 또한, Swin Transformer의 ShiftedWindow 설계를 통해 연속적인 윈도우 간 정보 교환을 가능하게 함으로써 모델의 전반적인 표현력을 강화한다. 이를 통해 SwinIR은 초해상도 및 이미지 복원 작업에서 정교한 텍스처 재구성과 노이즈 억제에 탁월한 성능을 보인다.

3. 연구 방법

3.1. 제안 모델

본 연구에서는 ERS-1 및 ERS-2 위성 영상의 초해상화 복원을 위해 기존 SwinIR 모델을 기반으로 한 Transformer 구조를 개선하여 제안된 모델을 설계하였다. 제안된 모델은 ERS-1 및 ERS-2 위성 영상 데이터의 복잡한 특성인 기하학적 왜곡, 잡음, 지형적 변화 등을 효과적으로 학습하기 위해 window attention과 global attention을 결합한 Combined AttentionMechanism을 도입하였다. 이 메커니즘은 지역 적정보뿐만 아니라 전역적(contextual) 정보를 동시에 학습할 수 있도록 설계되어 ERS-1 및 ERS-2 위성 영상에서 나타나는 다양한 특성을 정교하게 복원할 수 있도록 한다. 또한, edge enhance residual block (EERB)은 경계 정보 복원을 강화하기 위해 설계되었으며, RSTB의 출력 뒤에 배치되어 학습된 특징을 추가적으로 강화한다. Fig. 1에 제시된 전체 구조와 (a)에 EERB의 상세 구조가 나타나 있다.

Figure 1. Overall architecture of the Enhanced SwinIR model. (a) A detailed structure of the edge enhance residual block (EERB).

EERB는 Sobel 필터를 학습 가능한 형태로 변환하여 입력 데이터에서 X 및 Y 방향의 엣지를 감지한 후, 이를 결합해 최종 엣지 정보를 생성한다. 생성된 엣지 정보는 RSTB에서 학습된 특징 정보와 결합되며, 96개의 합성곱 필터를 활용해 풍부한 특징 표현을 학습할 수 있도록 설계되었다. 또한 ELU 활성화 함수를 채택하여 다양한 특징 정보를 보존하며, Residual Scaling을 적용해 출력 값의 크기를 조정하여 모델의 안정성을 높였다. 최종적으로, 학습된 특징과 계산된 엣지를 결합하여 강화된 출력 데이터를 생성한다.

3.2. 데이터 셋 및 세부 파라미터

본 연구에서는 SAR 영상 기반의 원본 데이터 2,378장에 대해 학습, 검증, 테스트 데이터셋을 70:15:15 비율로 분할하였다. 이후 학습 데이터셋은 90°, 180°, 270° 회전과 상하/좌우 반전이 포함된 데이터 증강(data augmentation)을 적용하여 총 9,984장으로 증강하였다. 이 과정을 통해 SAR 영상의 다양한 방향성과 특성을 학습할 수 있도록 하였다. 검증 데이터셋과 테스트 데이터셋은 원본 데이터를 기반으로 슬라이딩 윈도우 방식을 사용하여 각각 2,142개의 256 × 256 크기 패치(patch)를 생성하였다. 이때, 각 이미지에서 최대 6개의 패치만 추출되며 패치들은 겹치지 않게 추출되었다. 검증과 테스트 데이터셋은 증강 없이 원본 데이터를 그대로 사용하여 모델 성능을 학습 데이터에 의존하지 않고 객관적으로 평가할 수 있도록 구성하였다.

학습을 위해 SAR 영상을 다운샘플링(downsampling)하였으며, 다운샘플링에는 가장자리의 세부정보를 잘 보존하는 Bicubic Interpolation 방식을 사용하였다(He et al., 2020; Kang et al., 2012). 학습 데이터는 저해상도와 고해상도 이미지 쌍으로 구성되었으며, 데이터의 예시는 Fig. 2에 제시되어 있다. Fig. 2(a)는 Bicubic Interpolation을 통해 생성된 저해상도 이미지, Fig. 2(b)는 원본 고해상도 이미지쌍을 시각적으로 보여준다.

Figure 2. Sample image of the ERS-1 and ERS-2 satellite images. (a) The low-resolution image and (b) the high-resolution image.

모델 학습에는 Adam옵티마이저(optimizer)를 사용하였으며, 초기 학습률은1e-4로설정하였다. 학습률스케줄링에는CosineAnnealingLR을 적용하여 학습률을 점진적으로 감소시킴으로써 안정적이고 효율적인 학습을 유도하였다. 이를 통해 학습 초기에는 빠른 수렴을, 학습 후반부에는 과적합 방지를 통해 최적의 성능에 도달하도록 설계하였다. 실험에 사용된 주요 파라미터(parameter)는 Table 1과 같다.

Table 1 . Model architecture configuration.

ParameterValue
Epoch200
Batch Size12
OptimizerAdam
Learning Rate1e-4
SchedulerCosineAnnealingLR
Attention Window Size4
Residual Scaling0.1
Loss FunctionL1: 1.1, Perceptual: 0.008, Total Variation: 0.003, SSIM: 0.2
Input Size128 × 128
Output Size256 × 256


3.3. 평가 방법

제안된 모델의 복원 성능 평가는 peak signal-to-noise ratio (PSNR), structural similarity index (SSIM), speckle suppression index (SSI)와 같은 대표적인 성능 지표(Wang et al., 2004; Lee, 1980)를 사용하여 수행하였다. 이 지표들은 영상 복원의 정확성과 품질을 평가하는 데 널리 사용되며, 각각의 지표는 복원된 이미지와 원본 이미지 간의 차이를 다양한 측면에서 측정한다.

PSNR은 재구성된 이미지와 원본 이미지 간의 차이를 측정하는 신호 대 잡음비를 의미하며, 재구성된 이미지의 품질을 평가하는 데 사용된다. 여기서 MAXI는 이미지의 최대 픽셀 값이고, RMSE는 평균제곱근 오차이다. PSNR의 계산식은 식(1)과 같다.

PSNR=20log10MAXIRMSE

SSIM은 두 이미지 간의 구조적 유사성을 평가하는 지표로 단순한 픽셀 값의 비교 대신 인간의 시각 인지를 반영하여 두 이미지를 비교한다. SSIM은 밝기, 대비, 구조적 정보를 종합적으로 고려하며, 결과값은 0에서 1 사이를 가진다. 1에 가까울수록 두 이미지가 구조적으로 매우 유사하다는 것을 의미한다. 여기서 μx, μy는 각 이미지 x와 y의 평균, σx2+σy2는 각 이미지 x와 y의 분산, σxy는 두 이미지 사이의 공분산, C1C2는 밝기와 대비의 안정성을 위한 상수값이다. SSIM의 계산식은 식(2)와 같다.

SSIMx,y=2μxμy+C12σxy+C2μx2+μy2+C1σx2+σy2+C2

SSI는 SAR 영상의 스펙클 노이즈 억제 성능을 평가하는 지표로 영상에서 스펙클 노이즈를 얼마나 효과적으로 억제했는지 측정하는데 사용된다. 여기서 σref2는 참조 이미지의 분산,σdif2는 복원된 이미지와 참조 이미지 간의 차이로 인한 분산이다. SSI의 계산식은 식(3)과 같다.

SSI=10log10σref2σdif2

4. 결과 및 토의

본 연구의 실험은 ERS-1 및 ERS-2 위성 영상의 초해상화 복원을 위한 제안 모델의 성능을 평가하고, 기존 모델과의 비교를 통해 우수성을 입증하는 것을 목표로 한다. 이를 위해 단계적으로 실험을 설계하여 기존 모델의 성능을 평가하고 최적의 복원 성능을 도출하기 위한 주요 파라미터를 선정한 후, 제안 모델의 최종 성능을 확인하였다.

첫 번째로, Transformer 모델이 SAR 영상 복원에서 CNN 기반 모델보다 우수한 성능을 보임을 확인하기 위해 전처리를 적용하지 않은 오리지널 데이터 기반 성능 비교 실험을 진행하였다. 두 번째로, 전처리된 데이터 기반 성능 비교 실험을 통해 전처리가 SAR 영상 복원에 미치는 영향을 평가하였다. 전처리 과정을 적용한 모델 간 성능 변화를 비교하여 스페클 노이즈 완화와 복원 성능 향상에 효과가 있음을 확인하였다. 세 번째로, Attention 메커니즘의 최적 구성을 도출하기 위해 윈도우 크기별 성능 비교 실험을 수행하였다. 다양한 윈도우 크기를 비교하여 지역적 정보와 전역적 정보의 균형을 고려한 최적의 크기를 선정하였다. 네 번째로, 모델 학습에 중요한 영향을 미치는 옵티마이저를 비교하기 위해 성능 비교 실험을 수행하였다. Adam, RAdam, AdamW등 다양한 옵티마이저를 대상으로 SAR 영상 복원에서의 적합성을 평가하였다. 마지막으로, 앞선 실험을 통해 도출한 최적의 파라미터와 구조를 반영하여 수정된 제안 모델의 성능을 평가하였다. 기존 CNN 기반 모델과 Transformer 기반 모델(SwinIR)과 비교하여 제안 모델의 복원 성능을 확인하였다. 각 실험은 해당 조건에서 일관되게 진행되었으며, 모든 실험에서 모델은 200 Epoch 동안 학습되었다. 또한, 모든 실험은 특정 조건에서의 ERS-1 및 ERS-2 위성 영상 복원 성능을 정량적으로 평가하기 위해 다양한 성능 지표(PSNR, SSIM, SSI)를 사용하였다.

4.1. 오리지널 데이터 기반 성능 비교

ERS-1 및 ERS-2 위성 영상 복원 모델의 성능을 비교하기 위해 전처리 없이 원본 데이터셋만을 사용하여 SRCNN, VDSR, RCAN, SwinIR 모델로 실험을 수행하였다. 이 실험은 별도의 전처리나 데이터 증강 없이 모델 자체의 복원 성능을 평가하기 위해 진행되었다. Table 2에 나타난 결과에서 SwinIR 모델이 PSNR, SSIM, SSI 지표에서 가장 높은 성능을 기록하며, Transformer를 활용한 모델이 CNN 기반 모델(SRCNN, VDSR, RCAN)보다 더 나은 복원 성능을 보인다.

Table 2 . Performance comparison of models using the original dataset.

ModelPSNRSSIMSSI
SRCNN(CNN)18.7040.8185.565
VDSR(CNN)18.8210.8365.945
RCAN(CNN)18.5800.8325.653
SwinIR(Transformer)19.2380.8556.362


4.2. 전처리된 데이터 기반 성능 비교

SAR 영상의 스페클 노이즈로 인해 복원 성능이 저하되는 문제를 완화하기 위해, 본 연구에서는 Lee 필터와 Bilateral 필터를 적용하여 전처리를 수행하였다. 전처리 여부에 따라 데이터를 구분한 뒤, SRCNN, VDSR, RCAN, SwinIR 모델의 복원 성능을 비교하였다. Table 3의 결과에서 전처리를 적용한 데이터(Post)는 전처리를 적용하지 않은 데이터(Pre)에 비해 모든 모델에서 PSNR, SSIM, SSI 지표가 전반적으로 향상된 것으로 나타났다. 특히, SwinIR 모델은 PSNR 23.283, SSIM 0.914, SSI 8.691로 가장 높은 성능을 기록하였다. 이러한 결과는 전처리가 스페클 노이즈 억제와 구조적 유사성 유지를 통해 SAR 영상 복원 성능을 향상시키는 데 중요한 역할을 한다는 점을 보여준다.

Table 3 . Evaluation of preprocessing effect on model performance.

ModelPSNRSSIMSSI
PrePostPrePostPrePost
SRCNN18.70421.5380.8180.8845.5657.393
VDSR18.82122.9050.8360.9015.9458.282
RCAN18.58022.2140.8320.8945.6537.592
SwinIR19.23823.2830.8550.9146.3628.691


4.3. Attention 윈도우 크기별 성능 비교

Attention 윈도우 크기는 모델이 학습하는 지역적 정보의 범위를 결정하는 핵심 요소로, 본 연구에서는 윈도우 크기를 3, 4, 5로 설정하여 성능을 비교하였다. 실험 결과는 Table 4와 같다. 윈도우 크기 4에서 PSNR 23.314, SSIM0.916, SSI 8.691로 가장 높은 복원 성능을 기록했으며, 이는 지역적 정보와 전역적 정보 간의 균형이 가장 적절한 설정임을 보여준다.

Table 4 . Performance comparison based on attention window size.

SizePSNRSSIMSSI
323.3030.8678.682
423.3140.9168.691
522.6200.9058.628


4.4. 옵티마이저 별 성능 비교

ERS-1 및 ERS-2 위성 영상의 복원 성능을 극대화하기 위해 AdamW, RAdam, Adam 옵티마이저를 비교하였다. 동일한 학습 설정에서 진행된 실험 결과는 Table 5와 같다. AdamW는 정규화와 일반화 성능에서 강점을 가지지만, 복잡한 데이터의 세부 정보 학습에서는 다소 제한적이다. RAdam은 학습 안정성을 높이는 특성을 가지고 있으나, 높은 복잡도의 SAR 영상 복원에는 성능이 부족하다. 반면, Adam 옵티마이저는 PSNR 23.284, SSIM 0.916, SSI 8.662로 다른 옵티마이저보다 뛰어난 성능을 보인다.

Table 5 . Performance comparison of optimizers for SAR image restoration.

OptimizerPSNRSSIMSSI
AdamW23.2740.9168.651
RAdam23.2510.9158.629
Adam23.2840.9168.662


Fig. 3은 서로 다른 옵티마이저를 사용하여 복원된 SAR 영상을 비교한 결과를 보여준다. (a)는 AdamW를 사용하여 생성된 이미지를, (b)는 RAdam을 사용하여 생성된 이미지를, (c)는 Adam을 사용하여 생성된 이미지를, (d)는 생성된 이미지들의 고해상도 이미지를 나타낸다. 위 옵티마이저 중 Adam 옵티마이저는 가장 선명한 엣지와 세부 디테일을 복원하며, 스페클 노이즈 억제 측면에서도 우수한 성능을 보인다.

Figure 3. Images generated by different optimizers: (a) AdamW, (b) Radam, (c) Adam, and (d) high-resolution images.

4.5. 제안 모델 성능 평가

Table 6은 제안 모델(Enhanced SwinIR)의 성능 평가 결과를 보여준다. 실험 결과, 제안 모델은 CNN 기반 모델(SRCNN, VDSR, RCAN)에 비해 PSNR, SSIM, SSI 지표에서 전반적으로 더 우수한 성능을 나타냈다. 특히, SSI에서 높은 값을 기록하며 스페클 노이즈 억제와 구조적 정보 복원 측면에서 우수한 성능을 보인다.

Table 6 . Performance evaluation of the proposed model compared to baseline methods.

ModelPSNRSSIMSSI
SRCNN21.5940.8737.174
VDSR23.1560.9028.296
RCAN22.6200.9037.998
SwinIR23.5670.9098.586
Enhanced SwinIR (our)23.4130.9128.653


SwinIR과 제안 모델을 비교한 결과, 제안 모델은 SSIM및 SSI 지표에서 더 높은 값을 기록하여 구조적 유사성과 스페클 노이즈 억제 성능이 개선되었음을 보여준다. 반면, SwinIR은 PSNR 지표에서 소폭 우위를 보였으나, 이는 픽셀 간 차이를 최소화하는 데 중점을 둔 결과로 해석된다. 이러한 결과는 제안 모델이 SAR 영상 복원에서 CNN 기반 모델 대비 뛰어난 성능을 발휘함과 동시에 기존 Transformer 기반 모델인 SwinIR의 한계를 효과적으로 보완하였다.

Fig. 4는 제안 모델을 포함한 각 모델이 복원한 SAR 영상을 시각적으로 비교한 결과를 보여준다. SRCNN, VDSR, RCAN, SwinIR 등의 기존 모델과 비교했을 때, 제안 모델은 텍스처 유지와 구조적 정보 복원 측면에서 가장 우수한 성능을 보였다. 특히, 복원된 이미지에서 산 맥과 같은 복잡한 구조가 명확히 보존되었으며, 흐릿하거나 손실된 부분이 크게 줄어들었다.

Figure 4. Comparison showing restored SAR images by different models: (a) SRCNN, (b) VDSR, (c) RCAN, (d) SwinIR, (e) enhanced SwinIR (proposed model), and (f) high-resolution image.

Fig. 4(a) SRCNN의 경우, 네트워크 구조의 단순성으로 인해 복잡한 텍스처와 경계 복원에서 한계가 있었으며, 결과적으로 세부 텍스처가 손실되고 경계가 명확하지 않아 전체적으로 흐릿한 결과를 나타냈다. Fig. 4(b) VDSR은 SRCNN보다 더 깊은 네트워크 구조를 사용하여 복원 품질이 개선되었지만, 텍스처 디테일과 경계 복원에서 여전히 제약이 있었다. Fig. 4(c) RCAN은 Residual Channel Attention 메커니즘을 활용하여 구조적 복원과 텍스처 표현이 강화되었으나, 경계의 선명도는 다소 부족하였다. Fig. 4(d) SwinIR은 Self-Attention 메커니즘을 통해 RCAN보다 향상된 텍스처 복원과 경계 표현을 보였으나, 윈도우 기반 처리 방식으로 인해 국소적인 텍스처 복원에서 한계가 있었다.

반면, 제안 모델 Fig. 4(e)는 Combined Attention Mechanism과 EERB를 통해 텍스처 복원과 구조적 경계의 선명도를 효과적으로 유지하였다. 특히, Combined AttentionMechanism은 SAR 영상의 특성을 반영하여 글로벌 및 로컬 정보를 결합함으로써, 경계와 세부 지형 패턴을 더욱 명확히 복원할 수 있었다. EERB는 복잡한 지형 구조와 경계 표현을 강화하여, 세부 디테일의 손실을 최소화하면서 경계의 선명도를 높이는 데 기여하였다. 확대된 영역에서 확인할 수 있듯이, 제안 모델은 산맥의 경계선과 같은 복잡한 지형 패턴을 Fig. 4(f) 고해상도 이미지와 가장 유사하게 표현하였다.

이러한 결과는 정량적 평가 지표에서도 동일하게 나타났다. 제안 모델은 다른 모델 대비 PSNR에서 평균적으로 2.5dB, SSIM에서 0.03, SSI에서 0.07 더 높은 값을 기록하며, 텍스처와 구조적 복원의 균형을 효과적으로 구현하였다. 이는 제안 모델이 SAR 영상 복원에서 기존 모델 대비 더욱 우수한 성능을 제공함을 보여준다.

본 연구에서는 CNN 기반 모델이 장거리 상호작용을 모델링하지 못하고 스페클 노이즈 억제에 한계를 보이는 문제를 Transformer 기반 접근법으로 극복할 수 있음을 입증하였다. 특히, Transformer 모델의 윈도우 기반 로컬 어텐션의 제약을 보완하기 위해 Combined Attention Mechanism과 Edge Enhance Residual Block을 제안하였으며, 이를 통해 SAR 영상 복원에서 구조적 유사도(SSIM)와 스페클 노이즈 억제(SSI) 성능을 크게 향상시켰다. 제안된 방법은 PSNR 지표에서 소폭 낮은 성능을 기록했으나, 구조적 유사도(SSIM)와 스페클 노이즈 억제(SSI) 측면에서 가장 향상된 성능을 보이며, SAR 영상 복원에서 텍스처 유지와 세부 정보 복원에 있어 우수한 성능을 입증하였다.

그러나 본 연구에서 제안한 모델은 몇 가지 한계를 가진다. 첫째, 실험은 ERS-1 및 ERS-2 위성 데이터를 대상으로 수행되었으며, 다양한 SAR 영상에 대한 일반화 성능 검증이 이루어지지 않았다. SAR 영상은 센서 유형, 주파수 대역, 공간 해상도 등에 따라 특성이 상이하므로, 특정 데이터셋에서 학습된 모델이 다른 환경에서도 동일한 성능을 유지할 수 있는지에 대한 추가적인 검증이 필요하다. 둘째, Transformer 기반 모델의 높은 계산 비용과 메모리 요구량은 실시간 응용 가능성을 제한할 수 있다. CNN 기반 모델에 비해 연산량이 많고, 학습 및 추론 과정에서 높은 graphics processing unit (GPU) 메모리를 요구하며, 특히 초해상화 과정에서 입력 이미지 크기가 증가할수록 연산 복잡도가 기하급수적으로 증가하여 실시간 적용이 어려울 가능성이 존재한다. 이러한 한계를 해결하기 위해 경량화된 네트워크 구조 설계 및 최적화된 연산 기법을 적용하여 연산 비용을 절감하는 방안을 고려할 필요가 있다.

향후 연구에서는 다양한 공간 해상도를 고려한 추가 학습 데이터 구축을 통해 모델의 성능을 개선하고, ERS SAR 영상뿐만 아니라 보다 높은 해상도의 SAR 영상에서도 복원 성능을 평가하는 것이 중요하다. 또한, 다양한 해상도 조건에서 복원 모델의 일반화 성능을 확보함으로써 실용성을 극대화하는 방향으로 SAR 영상 복원 기술의 적용 범위를 확장하는 것이 필요하다.

5. 결론

본 연구에서는 European Remote-Sensing Satellite (ERS)에서 획득한 SAR 영상의 복원 성능을 향상시키기 위해 기존 SwinIR 모델의 구조를 개선한 Enhanced SwinIR 모델을 제안하였다. 제안 모델은 SAR 영상의 전역적 문맥 정보를 보완하기 위한 윈도우 기반 로컬 어텐션과 전역 어텐션을 결합한 Combined AttentionMechanism과 경계 정보 복원을 강화하기 위한 Edge Enhance Residual Block을 도입하여 설계하였다. ERS-1 및 ERS-2 위성 데이터를 활용한 실험 결과, 제안 모델은 CNN 기반 모델인 SRCNN, VDSR, RCAN 및 기존 SwinIR 모델 대비 PSNR, SSIM, SSI 지표에서 향상된 성능을 기록하였다. 특히, 구조적 유사성과 스페클 노이즈 억제 성능에서 우수한 결과를 보이며, Transformer 기반 모델이 SAR 영상 복원에서 기존 접근법 대비 효과적인 대안임을 입증하였다.

사사

본 과제(결과물)는 2024년도 교육부의 재원으로 한국연구재단의 지원을 받아 수행된 지자체-대학 협력기반 지역혁신 사업의 결과임(2021RIS-004).

Conflict of Interest

No potential conflict of interest relevant to this article was reported.

Fig 1.

Figure 1.Overall architecture of the Enhanced SwinIR model. (a) A detailed structure of the edge enhance residual block (EERB).
Korean Journal of Remote Sensing 2025; 41: 143-152https://doi.org/10.7780/kjrs.2025.41.1.12

Fig 2.

Figure 2.Sample image of the ERS-1 and ERS-2 satellite images. (a) The low-resolution image and (b) the high-resolution image.
Korean Journal of Remote Sensing 2025; 41: 143-152https://doi.org/10.7780/kjrs.2025.41.1.12

Fig 3.

Figure 3.Images generated by different optimizers: (a) AdamW, (b) Radam, (c) Adam, and (d) high-resolution images.
Korean Journal of Remote Sensing 2025; 41: 143-152https://doi.org/10.7780/kjrs.2025.41.1.12

Fig 4.

Figure 4.Comparison showing restored SAR images by different models: (a) SRCNN, (b) VDSR, (c) RCAN, (d) SwinIR, (e) enhanced SwinIR (proposed model), and (f) high-resolution image.
Korean Journal of Remote Sensing 2025; 41: 143-152https://doi.org/10.7780/kjrs.2025.41.1.12

Table 1 . Model architecture configuration.

ParameterValue
Epoch200
Batch Size12
OptimizerAdam
Learning Rate1e-4
SchedulerCosineAnnealingLR
Attention Window Size4
Residual Scaling0.1
Loss FunctionL1: 1.1, Perceptual: 0.008, Total Variation: 0.003, SSIM: 0.2
Input Size128 × 128
Output Size256 × 256

Table 2 . Performance comparison of models using the original dataset.

ModelPSNRSSIMSSI
SRCNN(CNN)18.7040.8185.565
VDSR(CNN)18.8210.8365.945
RCAN(CNN)18.5800.8325.653
SwinIR(Transformer)19.2380.8556.362

Table 3 . Evaluation of preprocessing effect on model performance.

ModelPSNRSSIMSSI
PrePostPrePostPrePost
SRCNN18.70421.5380.8180.8845.5657.393
VDSR18.82122.9050.8360.9015.9458.282
RCAN18.58022.2140.8320.8945.6537.592
SwinIR19.23823.2830.8550.9146.3628.691

Table 4 . Performance comparison based on attention window size.

SizePSNRSSIMSSI
323.3030.8678.682
423.3140.9168.691
522.6200.9058.628

Table 5 . Performance comparison of optimizers for SAR image restoration.

OptimizerPSNRSSIMSSI
AdamW23.2740.9168.651
RAdam23.2510.9158.629
Adam23.2840.9168.662

Table 6 . Performance evaluation of the proposed model compared to baseline methods.

ModelPSNRSSIMSSI
SRCNN21.5940.8737.174
VDSR23.1560.9028.296
RCAN22.6200.9037.998
SwinIR23.5670.9098.586
Enhanced SwinIR (our)23.4130.9128.653

References

  1. Cordonnier, J.-B., Loukas, A., and Jaggi, M., 2019. On the relationship between self-attention and convolutional layers. arXiv preprint arXiv:1911.03584. https://doi.org/10.48550/arXiv.1911.03584
  2. Dong, C., Loy, C. C., He, K., and Tang, X., 2016. Image super-resolution using deep convolutional networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(2), 295-307. https://doi.org/10.1109/TPAMI.2015.2439281
  3. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., and Unterthiner, T., et al, 2021. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. https://doi.org/10.48550/arXiv.2010.11929
  4. Elsayed, G., Ramachandran, P., Shlens, J., and Kornblith, S., 2020. Revisiting spatial invariance with low-rank local connectivity. arXiv preprint arXiv:2002.02959. https://doi.org/10.48550/arXiv.2002.02959
  5. ESA eoPortal, 2024. ERS-1 (European Remote-Sensing Satellite-1). Available online: https://www.eoportal.org/satellite-missions/ers-1 (accessed on Jan. 31, 2025)
  6. He, K., Zhang, X., Ren, S., and Sun, J., 2016. Deep residual learning for image recognition. In Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, June 26-July 1, pp. 770-778. https://doi.org/10.1109/CVPR.2016.90
  7. Kang, X., Li, S., and Hu, J., 2012. Fusing soft-decision-adaptive and bicubic methods for image interpolation. In Proceedings of the 21st International Conference on Pattern Recognition (ICPR), Tsukuba, Japan, Nov. 11-15, pp. 1043-1046.
  8. Kim, J., Lee, J. K, and Lee, K. M, 2016. Accurate image super-resolution using very deep convolutional networks. In Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, June 26-July 1, pp. 1646-1654. https://doi.org/10.1109/CVPR.2016.182
  9. Kim, S. W., 2010. A comparison of InSAR techniques for deformation monitoring using multi-temporal sar. Korean Journal of Remote Sensing, 26(2), 143-151. https://doi.org/10.7780/kjrs.2010.26.2.143
  10. Kim, T. W., and Han, H. S., 2022. Analysis of surface displacement of oil sands region in Alberta, Canada using Sentinel-1 SAR time series images. Korean Journal of Remote Sensing, 38(2), 139-151. https://doi.org/10.7780/kjrs.2022.38.2.1
  11. Ko, U., Seo, I., Lee, J., and Jeong, H., 2021. Current trends of the synthetic aperture radar (SAR) satellite development and future strategy for the high resolution wide swath (HRWS) SAR satellite development. Journal of Space Technology and Applications, 1(3), 337-355. https://doi.org/10.52912/jsta.2021.1.3.337
  12. Kumar, D., 2021. Urban objects detection from C-band synthetic aperture radar (SAR) satellite images through simulating filter properties. Scientific Reports, 11, 6512. https://doi.org/10.1038/s41598-021-85121-9
  13. Ledig, C., Theis, L., Huszar, F., Caballero, J., Cunningham, A., and Acosta, A., et al, 2017. Photo-realistic single image super-resolution using a generative adversarial network. In Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, July 22-26, pp. 4681-4690. https://doi.org/10.1109/CVPR.2017.19
  14. Lee, J.-S., 1980. Digital image enhancement and noise filtering by use of local statistics. IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-2(2), 165-168. https://doi.org/10.1109/TPAMI.1980.4766994
  15. Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L., and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. arXiv preprint arXiv:2108.10257. https://doi.org/10.48550/arXiv.2108.10257
  16. Lim, B., Son, S., Kim, H., Nah, S., and Lee, K. M., 2017. Enhanced deep residual networks for single image super-resolution. In Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Honolulu, HI, USA, July 21-26, pp. 1132-1140. https://doi.org/10.1109/CVPRW.2017.151
  17. Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., and Zhang, Z., et al, 2021. Swin transformer: Hierarchical vision transformer using shifted windows. arXiv preprint arXiv:2103.14030. https://doi.org/10.48550/arXiv.2103.14030
  18. Mason, D. C., Giustarini, L., Garcia-Pintado, J., and Cloke, H. L., 2014. Detection of flooded urban areas in high resolution synthetic aperture radar images using double scattering. International Journal of Applied Earth Observation and Geoinformation, 28, 150-159. https://doi.org/10.1016/j.jag.2013.12.002
  19. Nair, V., and Hinton, G. E., 2010. Rectified linear units improve restricted Boltzmann machines. In Proceedings of the 27th International Conference on Machine Learning, Haifa, Israel, June 21-24, pp. 807-814.
  20. NASA Earthdata, 2024. ERS-2 (European Remote Sensing Satellite-2). Available online: https://www.earthdata.nasa.gov/data/catalog/alaska-satellite-facility-distributed-active-archive-center-ers-2-version-1 (accessed on Jan. 31, 2025)
  21. Rad, M. S., Yu, T., Musat, C., Ekenel, H. K., Bozorgtabar, B., and Thiran, J.-P., 2020. Benefiting from bicubically down-sampled images for learning real-world image super-resolution. arXiv preprint arXiv:2007.03053. https://doi.org/10.48550/arXiv.2007.03053
  22. Rosen, P. A., Hensley, S., Joughin, I. R., Li, F. K., and Madsen, S. N., et al, 2000. Synthetic aperture radar interferometry. Proceedings of the IEEE, 88(3), 333-382. https://doi.org/10.1109/5.838084
  23. Small, D., Schubert, A., and Meier, E., 2023. Evaluating sar radiometric terrain correction products. Remote Sensing, 15(21), 5110. https://doi.org/10.3390/rs15215110
  24. Vaswani, A., Ramachandran, P., Srinivas, A., Parmar, N., Hechtman, B., and Shlens, J., 2021. Scaling local self-attention for parameter efficient visual backbones. arXiv preprint arXiv:2103.12731. https://doi.org/10.48550/arXiv.2103.12731
  25. Wang, X., Yu, K., Wu, S., Gu, J., Liu, Y., and Dong, C., et al, 2018. ESRGAN: Enhanced super-resolution generative adversarial networks. In: Leal-Taixé, L., Roth, S., (eds.), Computer Vision - ECCV 2018 Workshops, Springer, pp. 63-79. https://doi.org/10.1007/978-3-030-11021-5_5
  26. Wang, Z., Bovik, A. C., Sheikh, H. R., and Simoncelli, E. P., 2004. Image quality assessment: From error visibility to structural similarity. IEEE Transactions on Image Processing, 13(4), 600-612. https://doi.org/10.1109/TIP.2003.819861
  27. Zhang, K., Zuo, W., Gu, S., and Zhang, L., 2017. Learning deep CNN denoiser prior for image restoration. arXiv preprint arXiv:1704.03264. https://doi.org/10.48550/arXiv.1704.03264
  28. Zhang, Y., and Ban, Y., 2019. The super-resolution reconstruction of SAR image based on the improved FSRCNN. The Journal of Engineering, 2019(19), 5975-5978. https://doi.org/10.1049/joe.2019.0324
  29. Zhang, Y., Li, K., Li, K., Wang, L., Zhong, B., and Fu, Y., 2018. Image super-Resolution using very deep residual channel attention networks. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y., (eds.), Computer Vision - ECCV 2018, Springer, pp. 294-310. https://doi.org/10.1007/978-3-030-01234-2_18
KSRS
February 2025 Vol. 41, No.1, pp. 1-86

Metrics

Share

  • line

Related Articles

Korean Journal of Remote Sensing