Research Article

Split Viewer

Korean J. Remote Sens. 2024; 40(6): 881-893

Published online: December 31, 2024

https://doi.org/10.7780/kjrs.2024.40.6.1.1

© Korean Society of Remote Sensing

고해상도 광학영상 복원을 위한 딥러닝 기반 SAR-광학 영상 변환 모델 비교

박소연1, 곽근호2, 황의호3, 박노욱4*

1인하대학교 공간정보공학과 박사수료생
2농촌진흥청 국립농업과학원 농업위성센터 연구사
3K-water연구원 수자원위성센터 센터장
4인하대학교 공간정보공학과 교수

Received: November 12, 2024; Revised: November 25, 2024; Accepted: November 26, 2024

Comparison of Deep Learning-Based SAR-to-Optical Image Translation Models for High Spatial Resolution Optical Image Restoration

Soyeon Park1 , Geun-Ho Kwak2 , Eui Ho Hwang3 , No-Wook Park4*

1PhD Candidate, Department of Geoinformatic Engineering, Inha University, Incheon, Republic of Korea
2Researcher, National Agricultural Satellite Center, National Institute of Agricultural Sciences, Rural Development Administration, Wanju, Republic of Korea
3Director, Water Resources Satellite Center, K-water Research Institute, Daejeon, Republic of Korea
4Professor, Department of Geoinformatic Engineering, Inha University, Incheon, Republic of Korea

Correspondence to : No-Wook Park
E-mail: nwpark@inha.ac.kr

Received: November 12, 2024; Revised: November 25, 2024; Accepted: November 26, 2024

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Despite the increased availability of high spatial resolution satellite images with high temporal resolution, including micro-satellite constellations, the restoration of missing regions due to clouds and cloud shadows in optical imagery remains crucial for constructing optical image time series. The translation of synthetic aperture radar (SAR) imagery into optical imagery, known as SAR-to-optical image translation, has been effectively applied for optical image restoration. However, few studies have applied SAR-to-optical image translation to restore missing regions in high spatial resolution optical imagery. This study evaluates the performance of SAR-to-optical image translation models using generative adversarial networks (GAN) for high spatial resolution optical image restoration. Three representative GAN-based models, including Pix2Pix, CycleGAN, and multi-temporal conditional GAN (MTcGAN), were selected in this study. MTcGAN, which utilizes additional multi-temporal SAR and optical image pairs, was particularly selected to investigate the effects of input images. SAR-to-optical image translation experiments were conducted using COSMO-SkyMed single-polarization images and multi-spectral PlanetScope images from the Gimje Plain area, with performance evaluation of predictions across various multi-temporal image pairs. The results showed that the spectral angle mapper values, which represent the multi-spectral band similarity, for Pix2Pix, CycleGAN, and MTcGAN were 9.1°, 13.4°, and 6.9° respectively, indicating that MTcGAN generated predictions most spectrally similar to actual optical images. Furthermore, MTcGAN effectively preserved detailed structural information in both quantitative and qualitative evaluations. These findings suggest that incorporating additional input features in deep learning-based SAR-to-optical image translation can improve prediction accuracy.

Keywords Multi-sensor images, Image reconstruction, Cloud removal, Generative adversarial networks (GAN)

최근 국내외에서 고해상도 위성영상의 주기적인 획득을 위해 다양한 초소형 위성이 개발되고 있다(Lee et al., 2019; Hwang et al., 2020). 초소형 위성은 일반적으로 무게가 100 kg 이하인 위성을 의미하며(Lee, 2024), 이러한 위성들을 군집으로 운용하면 시간 및 공간해상도가 모두 높은 영상을 획득할 수 있다. 이로 인해 초소형 군집위성은 도심지, 농경지, 수계 등의 환경 모니터링뿐만 아니라 재난재해 탐지에도 유용하게 활용되고 있다(Lee et al., 2019; Chung et al., 2020). 초소형 군집위성의 탑재체는 광학센서뿐만 아니라 레이더 센서를 결합한 다중센서를 포함하고 있어 광학영상과 synthetic aperture radar (SAR) 영상을 모두 지원할 수 있다. SAR 영상은 기상 조건과 관계없이 주야간에 획득이 가능하여 농업, 환경, 재난 모니터링에 매우 유용하다(Tsokas et al., 2022). 반면, 광학영상은 구름 혹은 구름 그림자로 인해 기상 조건에 많은 영향을 받아 국내에서는 여름철 시계열 광학영상의 획득이 어렵다. 따라서 초소형 군집위성의 고해상도 광학영상을 효과적으로 활용하기 위해서는 구름 영역의 결측값을 복원하여 구름이 없는 영상을 생성하는 기술이 필요하다.

영상 복원이란 영상 내 결측값이 존재하는 영역에 대한 예측을 수행하여 결측이 없는 영상을 생성하는 기술을 의미한다. 이 연구에서 결측 지역은 광학영상 내 구름 혹은 구름 그림자 영역을 의미하여, 영상 복원은 구름 제거와 동일한 의미로 간주하였다. 영상 복원은 단일센서 자료를 사용하는 경우와 다중센서 자료를 사용하는 경우로 나눌 수 있다. 단일센서 자료를 사용하는 경우는 동일한 영상 내 다른 공간 영역의 정보나 다중시기 영상을 이용하는 방법이다. 구름 영역이 아닌 다른 영역으로부터 유사한 토지피복의 이웃화소값을 이용하여 보간 등으로 구름 영역의 결측값을 예측하여 영상을 복원한다(Militino et al., 2019; Yun et al., 2024). 그러나 이 방법은 구름이 아닌 영역에서 구름 영역과 유사한 토지피복 정보가 필요하며, 구름이 많거나 토지피복이 복잡한 지역에서는 한계가 있다. 또한 Park and Park(2022)은 기계학습을 이용하여 다중시기로 획득된 광학영상을 이용하여 구름 제거를 수행하였다. 다중시기로 획득된 광학영상을 사용하는 경우 시간에 따른 변화를 정량화할 수 있다면 구름 영역에 대한 구조적인 정보 등을 얻을 수 있기 때문에 효과적으로 복원이 가능하다. 그러나 여름철 구름이 지속되거나 홍수와 산불과 같은 재해재난 상황에는 구름이 없는 다중시기 영상 획득이 어려운 한계가 있다. 따라서 광학영상의 결측 지역을 복원하기 위해서는 기상 조건이나 구름에 관계 없이 지표면에 대한 정보를 획득할 수 있는 SAR 영상을 활용하여 다중센서 자료를 사용하는 방식이 효과적이다(Huang et al., 2015).

다중센서 자료를 이용한 영상 복원은 SAR 영상으로부터 광학영상의 결측 지역을 복원하는 과정을 의미하며, 주로 image-to-image translation 방법을 사용하였다. 구체적으로 이는 SAR-광학영상 변환(SAR-to-optical image translation)이라고 한다(Xiong et al., 2023). 광학영상은 지표면에서 반사된 태양 복사 에너지를 사용하는 반면 SAR 영상은 위성에서 발사한 마이크로파가 지표면에서 산란되는 안테나 방향으로 반사되는 에너지를 감지하기 때문에 두 영상은 서로 다른 에너지원 및 센서 구조를 가진다(Lee, 2021). 이러한 이유로 SAR와 광학영상은 서로 다른 물리적 특성을 가지며, 두 영상 간 도메인 차이가 매우 크다. 이와 같이 서로 다른 이미징 메커니즘으로 인한 복잡한 관계성을 모델링하는 것은 매우 어려운 작업이며, 이를 달성하는 것이 SAR-광학영상 변환의 가장 중요한 요소이다. 이를 해결하기 위해 SAR-광학영상 변환에는 비선형 관계성을 모델링하는데 효과적으로 알려진 딥러닝 모델이 주로 적용되어 왔다(Li et al., 2021).

다량의 훈련자료를 이용해 다중센서 자료 간 비선형 변환을 반복적으로 학습하는 딥러닝 모델은 영상 분류, 변화탐지 등 다양한 연구에서 일반적인 기계학습 모형보다 효과적으로 나타났다(Liu et al., 2017; Park et al., 2023). 특히 딥러닝 모델 기반의 SAR-광학영상 변환에는 생성적 적대 신경망(generative adversarial networks, GAN)을 기반으로 한 모델들이 주로 사용되어 왔다(Fuentes Reyes et al., 2019; Darbaghshahi et al., 2022). 그러나 대부분 SAR-광학영상 변환의 딥러닝 모델들은 Sentinel-1과 2와 같은 중해상도 위성영상을 대상으로 개발되거나 적용되어 왔다. 저해상도 대형 위성영상을 이용하면 다량의 영상을 비교적 쉽게 확보할 수 있어 충분한 훈련자료를 바탕으로 딥러닝 모델들을 효과적으로 적용할 수 있다. 그러나 고해상도 영상을 사용한 영상 복원은 다량의 자료 확보가 어렵고, 저해상도에서는 세부적으로 나타나지 않는 필지 간 경계 및 도로와 같은 공간 구조를 예측 결과에 반영할 수 있어야 한다. 따라서 고해상도 영상을 이용할 경우 다양한 딥러닝 모델들의 적용성 평가가 필요하다.

이 연구는 고해상도 광학영상의 구름 결측치 복원을 궁극적인 목표로, 영상 변환에 특화된 딥러닝 모델들을 평가하고 고해상도 광학영상 복원에 대한 제안점을 도출하는데 의의를 둔다. 이를 위해 김제 지역을 대상으로 고해상도 광학 및 SAR 위성인 PlanetScope와 COSMO-SkyMed를 이용한 SAR-광학영상 변환 사례 연구를 수행하였다. 딥러닝 모델로는 Pix2Pix와 CycleGAN 그리고 다중시기 입력자료를 이용하는 multi-temporal conditional GAN (MTcGAN)을 사용하였다. 고해상도 영상 자료 확보와 대상 지역을 고려하여 이 연구에서는 패치(patch) 단위의 훈련자료를 수집하고 가공하였다. 이후 딥러닝 모델들을 이용하여 SAR-광학영상 변환을 수행하고 복원된 광학영상과 실제 광학영상을 비교하여 모델의 예측 성능을 정량적· 정성적으로 분석하였다.

2.1. 연구 지역 및 사용 자료

SAR-광학영상 변환 사례 연구는 국내 최대 벼 생산지인 김제 지역을 대상으로 수행하였다. 벼는 5~6월에 모내기를 시작하여 여름철 가장 높은 식생 활력도를 보이며 9월부터 수확을 시작하는데, 여름철에는 장마, 홍수 등으로 인해 광학영상이 많은 구름 결측치를 포함한다. 따라서 김제 지역은 벼 모니터링에 가장 중요한 시기인 7, 8월에 구름이 없는 시계열 광학영상을 획득하기 어려운 지역이기 때문에 SAR-광학영상 변환으로 광학영상의 복원이 매우 필요한 지역이다. 또한 평 평한 지대로 구성된 김제 지역은 SAR 영상의 지형에 따른 영향을 최소화한다. 연구 지역은 대부분 논 필지로 구성되고 일부 시가지와 도로 그리고 하천과 작은 연못 등을 포함하고 있다(Fig. 1).

Fig. 1. Optical and SAR imagery in the study area. (a) A false-color composite (near-infrared, red, and green bands as R-G-B) of PlanetScope imagery on July 6, 2019. (b) COSMO-SkyMed HH polarization imagery on July 10, 2019.

국내에서는 논을 필지 단위로 재배하므로 생산량을 추정하기 위해서는 명확한 필지 경계를 구분할 수 있는 고해상도 위성영상이 필요하다. 또한 작물의 생물계절적 변화가 짧은 시기에 빠르게 나타나기 때문에 시간해상도가 높은 위성영상이 요구된다. 이러한 배경에서 이 연구는 고해상도 군집위성 중 하나인 PlanetScope (PS) 영상을 광학영상으로, 그리고 시간해상도가 높은 대형 SAR 위성 중 하나인 COSMO-SkyMed (CSK) 영상을 SAR 영상으로 선정하였다(Table 1).

Table 1 Summary of PlanetScope and COSMO-SkyMed images used in this study

CategoryPlanetScopeCOSMO-SkyMed
Instrument/ModeDove-R (PS2.SD)Stripmap HIMAGE
ProductLevel 3B surface reflectanceLevel 1A single-look complex slant
BandBlue, green, red, near-infraredX-band HH polarization
Spatial resolution3 m3 m
Acquisition datesMay 24, 2019
July 6, 2019
Aug. 26, 2019
Sep. 30, 2019
May 24, 2019
July 10, 2019
Aug. 27, 2019
Sep. 29, 2019


PS는 Planet에서 운영하는 약 120개의 소형 CubeSat 군집위성으로 촬영된 고해상도 광학영상이다(Marta, 2018). 이 연구에서 사용한 PS 영상은 공간해상도 3 m의 Dove-R 위성 자료이며, Level 3B product의 지표 반사율 영상을 사용하였다. PS 영상은 blue, green, red, nearinfrared(NIR) 밴드로 구성되어 있다.

CSK는 이탈리아에서 개발한 SAR 대형위성으로, 총 4대의 SAR 위성군을 통해 짦은 재방문 주기로 동일 지역을 반복적으로 촬영한다(Battagliere et al., 2019). 이 연구에서 사용한 CSK 영상은 Stripmap HIMAGE 모드로 획득된 X-band의 HH 단일 편파 영상이며, Level 1A product의 single-look complex slant 자료로써 공간해상도는 PS 영상과 동일하게 3 m이다. CSK 영상의 single-look complex 자료는 multi looking, speckle filtering, 지형 보정 등의 전처리를 수행한 후 데시벨(decibel) 스케일의 후방 산란 계수로 변환하였다(Filipponi, 2019; Kwak et al., 2022). 지형보정은 국토지리정보원에서 제공한 공간해상도 5 m의 digital elevation map을 기반으로 수행하였다. CSK 영상은 최대값을 0, 최소값은 –30으로 설정하여 min-max 정규화를 통해 값의 범위가 [0,1]이 되도록 정규화하였다.

2.2. 방법론

이 연구에서 수행한 영상 복원 실험은 여름철 영상 확보의 어려움을

고려하여 광학영상의 모든 화소가 두꺼운 구름으로 완전히 덮여 있는 상황을 고려하였다. 이 연구에서 SAR 영상으로부터 복원된 광학영상은 딥러닝 모델들을 이용한 SAR-광학영상 변환으로 생성된 광학영상으로 정의한다. 또한 딥러닝 모델들의 예측 성능을 정량적으로 평가하기 위해 실제 구름이 없는 광학영상에 구름이 모두 존재한다는 가정 하에 SAR-광학영상 변환을 적용하였다. GAN 기반 딥러닝 모델로는 서로 다른 도메인 간 영상 변환에 특화된 대표적인 영상 변환 모델인 Pix2Pix와 CycleGAN을 선정하고 고해상도 SAR-광학영상 변환에 적용하였다. 또한 조건부 GAN을 입력자료 차원에서 확장하여 농경지 모니터링을 위한 저해상도 광학영상 생성에 우수한 예측 성능을 보였던MTcGAN을 함께 적용하고 비교하였다(Kwak and Park, 2024).

2.2.1. Pix2Pix

Pix2Pix는 paired image-to-image translation 방법 중 하나로 개발된 조건부 적대적 신경망(conditional GAN, cGAN) 모델이다(Isola et al., 2017). Pix2Pix는 기존 GAN이 무작위 잡음(random noise)을 입력으로 사용하는 것과 달리, 조건부로 영상을 대입하여 입력 영상과 생성된 영상 간의 관계를 학습한다. 즉, Pix2Pix는 입력과 출력 자료가 모두 영상이라는 점에서 기존 GAN과 차별화된다. Pix2Pix는 생성자(Generator)와 판별자(Discriminator) 두 개의 네트워크로 구성된다(Fig. 2). 생성자는 U-net 구조를 채택하여 인코더와 디코더로 이루어져 있다. SAR 영상을 입력 받은 인코더는 영상을 저차원으로 압축하여 특징을 추출하고, 디코더는 인코더에 입력받은 특징을 고차원으로 복원하면서 skip connection을 통해 인코더의 압축과정에서 손실된 정보를 유지하며 가상의 광학영상을 생성한다. 판별자는 PatchGAN 구조로 구성되어 있으며, 생성자가 만든 가상의 광학영상과 실제 광학영상을 작은 패치 단위로 나누어 각 패치를 비교함으로써 생성된 영상이 실제와 유사한지 판별한다. Pix2Pix는 생성자가 만든 영상이 실제 영상과 유사해지도록 두 네트워크가 서로 적대적으로 학습을 반복한다.

Fig. 2. Schematic diagram of Pix2Pix (dotted lines represent the loss calculation process).

Pix2Pix의 두 네트워크는 각각 독립적으로 손실을 계산한 후, 최적화 함수(optimizer)를 통해 가중치를 갱신하며 자신의 손실을 최소화하는 방향으로 학습한다. 판별자의 손실은 적대적 손실(adversarial loss)로, 이진 교차 엔트로피(binary cross entropy, BCE)를 사용한다(Ho and Wookey, 2020). 적대적 손실은 판별자가 실제 광학영상을 진짜로, 생성된 가상의 광학영상을 가짜로 분류하는 성능을 평가하는 함수이다(식 1). 따라서 판별자는 실제 광학영상은 1에 가까운 값을, 생성자가 만든 영상에 대해서는 0에 가까운 값을 출력하도록 학습한다.

Discriminator loss=1N i=1 Nlog σ D^i real+log 1σ D^i generated

여기서 N은 패치 개수이며, D^ireal는 판별자가 실제 광학영상에 대한 출력값을, D^igenerated는 판별자가 생성된 광학영상에 대한 출력값을 의미한다. σ는 sigmoid 함수를 나타낸다.

Pix2Pix의 생성자 네트워크는 판별자가 생성된 가상의 광학영상을 실제 광학영상으로 분류하도록 BCE를 계산하여 손실을 적용한다.이 때 생성된 가상의 광학영상과 실제 광학영상 간의 절대적인 차이를 최소화하기 위해 L1 손실을 추가한다. 따라서 Pix2Pix의 생성자 네트워크의 손실 함수는 식(2)와 같이 정의된다.

Generator loss=1n i=1 nlogσ D^i generated+λi=1 n yiyi generated

여기서 n은 영상 화소 개수이며, yi는 실제 광학영상의 화소값을, yigenerated는 생성된 광학영상의 화소값을 의미한다. λ는 L1 손실의 가중치를 조절하는 하이퍼파라미터(hyperparameter)이다.

2.2.2. CycleGAN

CycleGAN은 대표적인 unpaired image-to-image translation 방법 중 하나로, 페어(pair) 영상 간 조건이 일치하지 않을 때 유용한 GAN 기반 모델이다(Zhu et al., 2017). 기존CycleGAN은 페어를 이루지 않는 영상으로도 학습할 수 있어 비지도 학습(unsupervised training) 모델로 분류된다. 이 연구에서는Pix2Pix와 마찬가지로 cGAN기반의CycleGAN을 고려하여 SAR-광학영상 페어를 입력으로 사용하였으며, 연구 지역 범위 및 해상도와 같은 영상 페어의 조건이 동일하다. 따라서 이 연구에서 적용한 CycleGAN은 paired 방식의 지도 학습(supervised training) 모델이다(Wang et al., 2019).

CycleGAN의 생성자와 판별자 네트워크는 쌍으로 구성되는데(Fig. 3), 각 생성자와 판별자 구조는 Pix2Pix와 동일하다. 먼저 생성자 네트워크에서는 두 개의 생성자가 사용된다. 첫 번째 생성자는 SAR 영상을 광학영상으로 변환하고, 두 번째 생성자는 광학영상을 SAR 영상으로 변환한다. 각 생성자에 대응되는 판별자가 존재하며, 판별자는 SAR와 광학영상 도메인에서 생성자가 만든 영상이 진짜인지 가짜인지 판별한다.

Fig. 3. Schematic diagram of CycleGAN (dotted lines represent the loss calculation process).

CycleGAN의 주요 특징은 SAR 영상과 광학영상 도메인 간의 상호변환을 학습하고, 변환된 영상이 원래 도메인으로 다시 돌아갈 수 있도록 순환 일관성(cycle-consistency) 손실을 이용한다는 점이다. 따라서 CycleGAN은 두 도메인 간 차이를 유지하면서 원본 영상과 유사한 구조를 가지도록 영상을 생성할 수 있다. 순환 일관성 손실은 각 도메인에서 SAR와 광학영상 간의 L1 차이를 더하여 계산된다.

Total cycle loss=λ1n i=1 nxixi cycled+λ i=1 nyiyi cycled

여기서 xiyi는 각 도메인의 실제 SAR와 광학영상을 의미하고, xicycledyicycled는 각 도메인의 영상을 변환한 후 다시 원래 도메인으로 되돌린 SAR와 광학영상을 의미한다. 두 도메인에 대한 생성자의 최종 손실은 식(2)와 유사하게 생성된 가상의 광학영상에 대한 BCE를 각각 계산하고 식(3)을 더하여 계산된다. 또한 두 도메인에 대한 판별자의 손실은 식(1)과 같이 각각 계산된다. 이 후 CycleGAN도 Pix2Pix와 동일하게 최적화 함수를 통해 각 도메인의 가중치를 갱신하며 손실을 최소화하는 방향으로 학습한다.

2.2.3. MTcGAN

MTcGAN은 예측 시기에 획득된 SAR 영상 외에도 참조 시기에 획득된 SAR-광학영상 페어를 조건부로 추가 사용하는 변형된 cGAN 모델이다(He and Yokoya, 2018). MTcGAN은 Pix2Pix 모델과 동일한 모델 구조와 손실 함수를 사용하며, 입력 자료의 구성을 변경한 모델이다(Fig. 4). MTcGAN이 참조 시기의 영상 페어를 추가로 사용하는 기대효과는 다음과 같다. 첫째, 다중시기의 SAR 영상을 모델 훈련에 사용함으로써 시간에 따른 변화를 예측 결과에 반영하고 입력 자료의 다양성을 증진시킬 수 있다. 둘째, 참조시기의 광학영상을 모델 훈련에 사용함으로써 SAR 영상만으로는 완전히 반영할 수 없는 광학영상의 분광 및 구조적 정보를 예측 결과에 반영할 수 있다. MTcGAN은 Pix2Pix와 CycleGAN에 비해 더 많고 다양한 입력자료를 활용한 다는 점에서 이점을 가질 수 있지만, 예측시기와 참조시기 간의 관계성이 예측 결과에 영향을 미칠 수 있다. 영상 내 다양한 토지피복이 시간에 따라 점진적으로 혹은 급격하게 변화할 수 있으며, 예측시기와 시기적으로 가까운 참조시기의 영상 페어를 항상 확보할 수 있는 것도 아니므로 이러한 요소들을 고려하여 MTcGAN 모델을 적용해야 한다.

Fig. 4. Schematic diagram of MTcGAN (dotted lines represent the loss calculation process). TR and TP represent the reference and prediction dates, respectively.

2.3. 실험 설계 및 평가

이 연구에서 사용한 딥러닝 모델들은 영상 변환에 범용적으로 적용이 가능하므로, 기존 연구에서 사용한 모델 구조와 하이퍼파라미터를 그대로 사용하였다(Kwak et al., 2022; Kwak and Park, 2024). 저해상도 영상 변환을 목적으로 하는 기존 연구와 달리, 이 연구는 국내 고해상도 영상을 이용한 SAR-광학영상 변환을 목적으로 하였으며, 이를 위해 고해상도 PS와 CSK 영상으로 훈련자료를 구성하였다. 고해상도 영상은 중저해상도 영상에 비해 상대적으로 좁은 범위로 촬 영되어 영상의 영역이 넓지 않다. 예를 들어, Sentinel-2 영상의 swath width는 약 290 km인 반면 PS 영상은 약 24 km이다. 즉 고해상도 영상 페어 자료는 영상 범위와 개수가 한정적이기 때문에 다량의 훈련자료를 추출하는데 한계가 있다. 이를 고려하여 PS와 CSK 영상의 공통 영역에 대해 훈련자료가 최대로 추출가능한 범위를 선정하였다.

훈련자료 영역에서 패치를 추출한 후 검증자료 영역에 해당하는 패치를 제외하고 모델 훈련에 사용하였다. SAR 영상의 기하하적 왜곡을 고려하여 훈련자료 영역은 바다를 제외하고 주로 평탄한 육지의 농경지를 대상으로 하였으며, 훈련 및 검증자료의 토지피복 분포는 유사하다. PS 영상의 전체 영역은 약 21,000 ha이며, 이 중 훈련자료 추출영역은 약 9,437 ha, 검증자료 추출영역은 훈련자료 추출영역의 10%에 해당하는 943 ha이다. 딥러닝 모델의 입력 자료는 공간해상도 3 m의 256 × 256 화소 크기의 패치로 추출하였다. 패치들은 50%씩 겹쳐 추출하여 훈련자료는 총 500개, 검증자료는 총 50개 패치를 구성하였다. 고해상도 영상 페어 자료로부터 추출된 한정된 훈련자료를 이용하면 모델 훈련 시 과적합이 발생할 수 있기 때문에 훈련자료에 대한 다양성을 증가시키기 위한 대안으로 상하좌우 반전과 회전을 포함한 데이터 증강(data augmentation)을 적용하였다. 각 딥러닝 모델은 총 500 epoch으로 훈련하였다.

다중센서 영상은 김제 지역의 벼 생육주기에 해당하는 5월 말부터 9월까지, 6월을 제외하고 매달 한 번씩 획득되었다(Fig. 5). SAR와 광학영상 페어는 동일한 시기에 획득되었거나 최대 4일의 차이가 있다. 광학영상 복원은 각 시기별로 수행되었고, MTcGAN은 이전 시기에서 가장 가까운 페어를 참조시기로 사용하였다(Table 2). Case 1의 경우 예측 시기인 5월은 벼 이앙시기로 하단부 필지에는 물이 차있는 상태이기 때문에 상단부 필지와 토지피복 상태가 다르다. SAR 영상에서 어둡게 나타나는 필지가 물대기를 한 논이다(Fig. 5). 따라서 Case 1은 동일한 형태의 필지가 영상 내에서 분광학적으로 다른 패턴을 보이는 경우이다. 참조시기인 7월은 벼가 생장 중인 시기로, 5월의 필지 상태와 크게 다르다. Case 2는 예측시기가 8월로, 대부분의 필지에 벼가 자라있는 상태이다. 이는 참조시기인 7월에서 8월로 넘어가는 과정에서 벼의 생장에 따라 점진적인 반사율 변화가 나타나는 경우이다. Case 2는 참조시기와 예측시기 사이의 시기 차이가 51일로 가장 큰 경우에 해당한다. Case 3은 예측 시기인 9월에 일부 논이 수확되어 필지가 나지가 된 상태이다. 이 때 참조시기는 벼 생장이 최고점에 이른 8월이고 시기 차이는 35일로 가장 작으나 광학영상에서는 예측시기인 9월과 토지피복 상태가 다르다. 그러나 SAR 영상에서는 두 시기 간 밝기값 차이가 두드러지지 않고 상관계수 값도 0.42로 가장 높다. 9월의 광학영상에서는 하단부 일부 필지가 나지 상태로 뚜렷하게 나타나지만, SAR 영상에서는 벼와 나지 필지의 구분이 명확하지 않다(Fig. 5).

Fig. 5. Multi-temporal PlanetScope and COSMO-SkyMed images in the test area.

Table 2 List of experimental cases

CaseReference datePrediction dateTime differenceCorrelation
1July 6, 2019May 24, 201943 days0.27
2July 6, 2019Aug. 26, 201951 days0.25
3Aug. 26, 2019Sep. 30, 201935 days0.42

Reference date is used only for the MTcGAN model. The correlation coefficient was calculated based on the SAR image.



이 연구에서는 SAR 영상의 단일 편파로부터 생성된 광학영상의 4개 밴드에 대해 예측 정확도를 계산하고, 각 모델의 예측 결과를 비교분석하였다. 모델별 정량적 예측 성능을 비교하기 위해 검증자료 영역의 PS 영상을 참값으로 간주하고 복원된 광학영상과의 밴드별 예측 오차를 계산하였다. 다중분광 밴드 간의 반사율 차이를 조정하기 위해 상대적 오차(relative root mean square error, RRMSE)를 계산하였다. 또한 복원된 영상과 실제 영상 간 구조적 유사도를 나타내는 structural similarity indexmeasure (SSIM)과 다중밴드 유사도를 각도(°)로 측정하는 spectral angle mapper (SAM)를 계산하였다. SAM은 식(4)와 같이 계산된다.

SAM=cos1 b=1Byb y^b b=1B yb2 b=1B y^b2 ×180π

여기서 B는 전체 분광밴드 개수이며, yby^b는 각 분광밴드 별 실제 영상과 복원된 영상을 의미한다. RRMSE과 SSIM은 0과 1 사이의 값을 가지며, RRMSE은 0에 가까울수록 SSIM은 1에 가까울수록 예측 성능이 높음을 의미한다. SAM은 0°에 가까울수록 복원된 영상이 실제 영상과 유사함을 나타낸다.

Table 3은 세 가지 SAR-광학영상 변환 실험에서 딥러닝 모델들의 정량적인 예측 성능을 보여준다. 먼저 모든 경우에서MTcGAN의 예측 성능이 Pix2Pix와 CycleGAN보다 우수하였다. Case 1의 blue, green, red 밴드에서는 세 모델 모두 다른 경우에 비해 평균적으로 낮은 오차를 보였지만 NIR 밴드에서는 오차가 특히 크게 나타났다. CycleGAN은 NIR 밴드에서 0.6이상의 RRMSE를 보여 식생의 반사율을 제대로 예측하지 못하였다. 반면, Pix2Pix와 MTcGAN은 각각 0.24와 0.18로 상대적으로 높은 성능을 보였다. 이러한 경향은 SSIM에서도 동일하게 나타났으며, NIR 밴드를 제외한 경우 평균적으로 0.93 이상의 높은 구조적 유사도를 보였다. 다중밴드 유사도를 나타나는 SAM에서 도 MTcGAN이 9.45°로 가장 높은 유사도를 보였다. MTcGAN은 논에 물이 차있는 5월과 식생이 자라는 7월 사이의 급격한 반사율 변화에도 7월 영상을 추가로 활용하여 가장 높은 정확도를 갖는 광학영상을 생성하였다.

Table 3 Band-wise accuracy statistics of three models for experimental cases

StatisticsBandCase 1Case 2Case 3
Pix2PixCycleGANMTcGANPix2PixCycleGANMTcGANPix2PixCycleGANMTcGAN
RRMSEBlue0.17840.19280.12170.35370.43660.18620.29330.32960.1792
Green0.18090.21110.13190.26740.33130.14360.23170.27290.2105
Red0.25060.28200.18960.45110.56360.24680.34410.40070.2808
NIR0.24290.62560.17940.14190.22130.11880.20020.26290.1380
SSIMBlue0.95230.94580.97600.92680.90120.98120.93920.93070.9769
Green0.93900.92690.96710.92480.89990.98220.93840.92810.9641
Red0.90240.88670.94510.87800.83540.96660.89020.87030.9361
NIR0.78000.57610.84400.79480.74230.85190.79690.76170.8904
SAM (°)-12.8123.889.459.0513.416.9211.5615.447.96

The best accuracy is shown in bold.



Case 2의 8월은 대부분 필지에 식생이 자라있는 상태로, 연구 지역 내 반사율 변화가 크지 않은 경우이다. 이 경우 Pix2Pix와 CycleGAN은 다른 경우에 비해 상대적으로 높은 예측 정확도를 보였다. 특히 Case 1에서 NIR 밴드의 높은 예측 오차와 달리 Case 2에서는 Pix2Pix와 CycleGAN 각각 0.14와 0.22의 더 낮은 RRMSE를 보였다. 또한 MTcGAN은 식생의 점진적인 변화가 발생한 7월과 8월 영상을 사용하여 6.9°로 가장 높은 SAM 값을 기록했다. Case 3은 Case 1에 비해 영상 내 토지피복 상태 변화가 상대적으로 적은 경우이다. 이 경우 Pix2Pix와 CycleGAN은 NIR 밴드 기준으로 Case 2보다 각각 0.2와 0.26으로 낮은 예측 정확도를 보였으나 Case 1보다는 더 높은 예측 정확도를 나타냈다.

정량적인 평가 결과, 세 모델 모두 연구 지역 내 혹은 시기 간 급격한 변화가 없는 경우(Case 2)에서 가장 우수한 예측 성능을 보였다. 반면, Pix2Pix와 CycleGAN은 동일한 영상 내 서로 다른 토지피복 상태가 혼합된 경우(Case 1과 3) NIR 밴드에서 예측 성능이 저하되었다. MTcGAN은 추가적인 시기의 SAR-광학 페어를 사용하여 시간에 따른 변화를 학습함으로써, 토지피복 상태가 달라져도 높은 예측 성능으로 광학영상을 생성할 수 있었다.

세 경우에 대한 각 모델별 예측 결과를 실제 광학영상과 비교한 결과(Fig. 6), Case 1에서는 하단의 논 필지에서 CycleGAN이 NIR 밴드의 반사율을 매우 높게 예측한 양상이 두드러졌다. 이는 Table 3에서 CycleGAN의 NIR 밴드 예측 오차가 크게 나타난 이유로, CycleGAN이 SAR 영상에서 물로 인해 낮게 나타나는 부분을 NIR 밴드에서 모두 높게 예측했기 때문이다. 반면, Pix2Pix와MTcGAN은 시각적으로 PS 영상과 매우 유사한 분광패턴을 보였다. Case 2에서는 연구 지역 내 모든 필지에 식생이 존재하여 NIR 밴드에서의 값이 높아 모두 붉게 나타났다. SAR 영상에서도 값의 변화가 크지 않았기 때문에 세 모델 모두 NIR 밴드의 높은 값을 잘 반영하였다. Case 3에서는 Pix2Pix와 CycleGAN은 하단의 나지 필지를 제대로 예측하지 못하고 붉게 나타나는 양상을 보였다. 광학영상에서는 상단과 하단의 필지가 서로 다른 분광패턴을 보이고 있지만 SAR 영상에서는 두 영역의 필지가 서로 유사하게 나타나고 있기 때문에 두 모델이 SAR 영상의 영향으로 인해 영역 간 차이를 제대로 반영하지 못하였다. 또한 Case 3에서 Pix2Pix와 CycleGAN모두 광학영상의 고해상도 구조를 구현하지 못하였는데, 이는 SAR 영상의 구조를 그대로 반영한 것으로 보인다. 반면, MTcGAN은 8월 시기의 SAR 영상을 함께 사용하여 하단 필지의 급격한 반사율 변화를 학습함으로써 실제 PS 영상과 가장 유사한 결과를 생성하였고, 반듯한 형태의 필지들도 잘 구현하였다.

Fig. 6. Visual comparison of prediction results from three models with a false-color composite (near-infrared, red, and green bands as R-G-B) of PlanetScope images and COSMO-SkyMed images for three cases.

Fig. 7은 Case 1에서 모델별 예측 결과를 일부 확대하여 보여준다.이 경우 Fig. 7에서 붉은색으로 보이는 필지에는 식생이 존재하고 녹색으로 나타난 필지는 물이 존재하는 논을 나타낸다. A 지역을 보면, 세 모델 모두 필지 사이의 도로를 잘 예측하였다. 이는 SAR 영상에서 도로가 높은 값으로 나타나 주변 필지와의 경계가 뚜렷하기 때문이다. Pix2Pix와MTcGAN은 논 필지에서 실제 PS 영상과 유사한 분광패턴을 보이는 반면, CycleGAN은 녹색으로 보여야 하는 필지를 붉은색으로 예측하였다. CycleGAN은 SAR 영상에서 낮은 값으로 나타나는 필지에 대해 광학영상의 NIR 밴드 값을 높게 예측하는 경향이 두드러졌다. 이는 SAR 영상이 CycleGAN의 예측에 더 큰 영향을 미친다는 것을 의미한다. 이러한 현상은 타 모델과는 다르게 SAR-광학 변환뿐 아니라 광학-SAR 변환을 함께 학습하는 CycleGAN의 순환 학습 특성 때문인 것으로 보인다.

Fig. 7. Visual comparison of prediction results from three models with a false-color composite (near-infrared, red, and green bands as R-G-B) of PlanetScope imagery at two dates and COSMO-SkyMed imagery in three subareas for Case 1. TR and TP represent the reference and prediction dates, respectively, while yellow boxes indicate the locations of the subareas.

B 지역은 도심지를 포함된 영역으로, Pix2Pix와 CycleGAN은 마을의 구체적인 구조와 형태를 제대로 표현하지 못하였다. 특히 CycleGAN은 마을과 필지 간 경계가 모호하게 나타났고 Pix2Pix는 경계가 흐릿해 보이는 blur 현상이 발생하였다. 반면MTcGAN은 도로와 마을 등 고해상도 영상에서 나타나는 세부적인 공간 구조를 잘 반영하고 있으며, 이는 SAR 영상에서는 나타나지 않은 특징들을 참조 시기의 광학영상으로부터 반영한 것으로 보인다.

C 지역은 필지 경계 부근의 하천이 포함된 영역으로, Pix2Pix는 하천의 낮은 반사율을 벼 필지와 유사하게 예측을 하여 필지와 하천 사이의 경계가 모호하게 나타났다. CycleGAN은 A 지역과 마찬가지로 SAR 영상에서 낮은 값을 보이는 하천을 NIR 밴드에서 높게 예측하여 붉게 표현하였으나, 하천과 필지의 경계는 명확하게 예측하였다. 두 모델과 비교해MTcGAN은 실제 PS 영상과 매우 유사한 분광패턴과 공간 구조를 잘 반영하였다.

Fig. 8은 Case 2에서 각 모델의 예측 결과를 일부 확대하여 보여준다. A 지역에 대해 Fig. 7과 비교했을 때, Fig. 8에서는 벼가 모두 자라 있어 SAR 영상에서 필지 간 반사율 차이와 경계가 뚜렷하지 않다. 이러한 경우 Pix2Pix와 CycleGAN은NIR 밴드에서 높은 분광패턴을 잘 반영했지만 도로 경계가 무너지거나 흐려지는 현상이 발생하였다. 반면MTcGAN은 실제 광학영상과 매우 높은 유사도를 보여 도로와 시가지 부분도 잘 예측하였다. B 지역은 연못이 포함된 영역으로, Pix2Pix와MTcGAN은 SAR 영상에서 어둡게 나타나는 물은 잘 예측한 반면 CycleGAN은 이를 도로와 유사한 반사율로 잘못 예측하였다. C 지역은 Fig. 7의 C 지역과 같은 곳인데, Fig. 7에서는 CycleGAN이 Pix2Pix에 비해 구조적인 정보를 더 명확하게 예측하였으나 Fig. 8에서는 경계가 흐려지는 결과를 보였다. Pix2Pix와 CycleGAN은 SAR 영상에서 구조적인 특징이 뚜렷하지 않을 때 실제 광학영상과의 유사도가 낮은 예측 결과를 생성하였고, MTcGAN은 SAR 영상의 특징에 강인하게 대응하며 실제 광학영상과 가장 유사한 예측 결과를 생성하였다.

Fig. 8. Visual comparison of prediction results from three models with a false-color composite (near-infrared, red, and green bands as R-G-B) of PlanetScope images at two dates and COSMO-SkyMed imagery in three subareas for Case 2. TR and TP represent the reference and prediction dates, respectively, while yellow boxes indicate the locations of the subareas.

Fig. 9은 Case 3에서 각 밴드별로 모델의 예측 값과 실제 PS 영상의 반사율을 비교한 산점도를 보여준다. Pix2Pix와 CycleGAN은 4개 밴드에서 서로 유사한 형태의 산점도를 보이고 있는데, 참값과 큰 차이를 보이는 분포를 나타낸다. RGB 밴드에서 두 모델의 결정계수(R2)가 모두 음수로 나타났고, NIR 밴드에서 Pix2Pix와 CycleGAN의 결정계수는 각각 0에 가까운 0.022와 강한 음수값인 –0.685를 나타내 잘 예측하지 못하였다. 반면MTcGAN은 y=x 선에 더 근접하여 분포의 밀집도가 높은 형태의 산점도를 보였다. 또한 NIR 밴드에서MTcGAN의 결정계수는 0.5로 가장 높은 양의 값을 보여 참값에 더 가까운 예측을 한 것을 의미한다. 또한 Pix2Pix와 CycleGAN은 주로 과추정 경향을 보이는 반면 MTcGAN은 green과 red 밴드에서는 저추정을, blue와 NIR 밴드에서는 참값에 유사한 결과를 나타낸다. 연구 지역은 주로 논으로 이루어져 있어 NIR 밴드의 예측 정확성이 중요한데 MTcGAN이 이를 가장 잘 예측하였다. 또한 blue, green, red 밴드에서 도 유사도가 높은MTcGAN은 구름이 하천과 연못 등에 분포하는 경우에도 두 모델에 비해 다양한 토지피복의 광학영상 복원 능력이 더 우수함을 확인할 수 있다.

Fig. 9. Scatter density plots of true and predicted values of three models (rows) and each spectral band (columns) in Case 3. R2 represents the coefficient of determination.

딥러닝 모델의 입력자료 측면에서 Pix2Pix는 단일 편파 SAR 자료만으로는 다중밴드 광학영상의 분광학적 패턴을 모두 반영하는 데 한계가 있다. 특히 Fig. 7과 8의 A 지역처럼 SAR 영상에서 다양한 토지피복에 대한 후방산란계수 차이가 크지 않을 경우, 공간적 구조를 반영하기 어렵다. 이러한 한계는 다른 시기에 획득된 SAR-광학영상 페어를 추가하여 극복할 수 있었다. MTcGAN는 다중시기 SAR 영상에서 학습한 시간에 따른 변화와 참조 시기의 광학영상에서 고해상도 구조 정보를 효과적으로 추출하여 예측 결과에 반영할 수 있음을 보여주었다.

또한 모델의 구조적인 측면에서 Pix2Pix와 MTcGAN은 단일 구조로 광학영상을 생성하는 반면, SAR-광학 변환을 순환 구조로 학습하 는CycleGAN은 이 연구에서 뛰어난 성능을 보이지 못하였다. 기존 연구에 따르면 unpaired 경우에서 Pix2Pix보다 CycleGAN이 더 나은 성능을 보일 수 있으나(Lin, 2023), 이 연구의 paired 경우에서는 Pix2Pix가 더 좋은 성능을 보였다. 또한 SAR와 광학영상처럼 두 영상 간 도메인 차이가 클 경우 SAR 영상에서 광학영상을 생성하는 과정이 중요하지만, CycleGAN은 반대 과정인 광학영상에서 SAR 영상을 생성하는 과정이 함께 적용되면서 SAR 영상에 의존하는 광학영상을 생성하였다. 따라서 이 연구 결과는 SAR-광학영상 변환에 딥러닝 모델을 적용할 때, SAR 영상에서 광학영상을 생성하는 단일 구조가 더 적 합하고, 단일 SAR 영상보다 더 다양한 입력자료를 추가하는 것이 광학영상 복원에 더 기여할 수 있음을 보여준다.

이 연구에서는 고해상도 광학영상 복원을 위해 SAR-광학영상 변환을 수행하고, 복원된 영상을 실제 광학영상과 비교분석하였다. 고해상도 SAR 위성인 CSK와 광학 위성인 PS 영상을 이용하여 시기별로 다양한 특징을 보이는 김제 지역을 대상으로 세 가지 대표적인 GAN 기반 딥러닝 모델들을 적용하였다. 사례 연구 결과, CSK 영상에서 필지 간 뚜렷한 대비가 나타날 때 세 모델 모두 고해상도 구조를 예측 결과에 잘 반영했으나, CycleGAN은 CSK영상의 패턴에 의존하여 실제 광학영상과는 다른 분광패턴을 보였다. 또한 Pix2Pix와CycleGAN은 CSK 영상에서 대비가 뚜렷하지 않을 때 낮은 예측 성능을 보여 필지 경계가 흐려지고 무너지는 경향이 나타났다. 반면, MTcGAN은 이러한 상황에서도 안정적으로 실제 PS 영상과 구조적 및 분광학적으로 유사한 광학영상을 생성하였다. 이러한 연구 결과는 딥러닝 모델을 이용하여 SAR-광학영상 변환을 수행할 경우 입력자료의 특징이 예측 결과에 큰 영향을 미치며, 다른 시기의 SAR-광학영상 페어를 추가적으로 사용하면 효과적으로 광학영상을 복원할 수 있음을 확인하 였다. 그러나 항상 다른 시기의 영상 페어를 사용할 수 있는 것은 아니므로, SAR 영상에서 추가적인 특징을 추출하여 학습하는 등 제한된 입력자료에서 다양한 특징을 활용할 수 있는 방안이 필요하다. 또한이 연구는 영상 복원 기술이 가장 유용하게 적용될 수 있는 농경지를 대상으로 하였으나, 다양한 토지피복을 포함하는 지역에 대한 추가 비교 연구가 필요하다. 마지막으로 이 연구에서는 영상 전체에 구름이 존재한다고 가정하고 SAR 영상 전체로부터 광학영상을 복원하는 실험을 수행하였다. 그러나 구름이 일부만 존재하는 경우에는 구름 영역의 SAR 영상을 광학영상으로 변환하고 구름이 아닌 영역의 정보를 활용하여 광학영상을 복원하는 연구도 고려할 필요가 있다.

이 논문은 2023년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No. RS-2024-00397964, 초소형 위성영상 기반 주요 지역 분석 및 실감화 지능 기술 개발).

No potential conflict of interest relevant to this article was reported.

  1. Battagliere, M. L., Fiorentino, C., and Virelli, M., 2019. COSMO-SkyMed mission and products description (Report No. ASI-CSM-PMGNT-001). Italian Space Agency. https://www.asi.it/wp-content/uploads/2021/02/COSMO-SkyMed-Mission-and-Products-Description_rev3-1.pdf
  2. Chung, M., Han, Y., and Kim, Y., 2020. A framework for unsupervised wildfire damage assessment using VHR satellite images with PlanetScope data. Remote Sensing, 12(22), 3835. https://doi.org/10.3390/rs12223835
  3. Darbaghshahi, F. N., Mohammadi, M. R., and Soryani, M., 2022. Cloud removal in remote sensing images using generative adversarial networks and SAR-to-optical image translation. IEEE Transactions on Geoscience and Remote Sensing, 60, 4105309. https://doi.org/10.1109/TGRS.2021.3131035
  4. Filipponi, F., 2019. Sentinel-1 GRD preprocessing workflow. Proceedings, 18(1), 11. https://doi.org/10.3390/ECRS-3-06201
  5. Fuentes Reyes, M., Auer, S., Merkle, N., Henry, C., and Schmitt, M., 2019. SAR-to-optical image translation based on conditional generative adversarial networks-Optimization, opportunities and limits. Remote Sensing, 11(17), 2067. https://doi.org/10.3390/rs11172067
  6. He, W., and Yokoya, N., 2018. Multi-temporal Sentinel-1 and-2 data fusion for optical image simulation. ISPRS International Journal of Geo-Information, 7(10), 389. https://doi.org/10.3390/ijgi7100389
  7. Ho, Y., and Wookey, S., 2020. The real-world-weight cross-entropy loss function: Modeling the costs of mislabeling. IEEE Access, 8, 4806-4813. https://doi.org/10.1109/ACCESS.2019.2962617
  8. Huang, B., Li, Y., Han, X., Cui, Y., Li, W., and Li, R., 2015. Cloud removal from optical satellite imagery with SAR imagery using sparse representation. IEEE Geoscience and Remote Sensing Letters, 12(5), 1046-1050. https://doi.org/10.1109/LGRS.2014.2377476
  9. Hwang, S., Jung, H., and Kwon, S. J., 2020. A survey on smallest launch demand and domestic space transportation industry. Current Industrial and Technological Trends in Aerospace, 18(1), 28-36.
  10. Isola, P., Zhu, J. Y., Zhou, T., and Efros, A. A., 2017. Image-to-image translation with conditional adversarial networks. arXiv preprint arXiv:1611.07004. https://doi.org/10.48550/arXiv.1611.07004
  11. Kwak, G.-H., and Park, N.-W., 2024. Assessing the potential of multitemporal conditional generative adversarial networks in SARto-optical image translation for early-stage crop monitoring. Remote Sensing, 16(7), 1199. https://doi.org/10.3390/rs16071199
  12. Kwak, G.-H., Park, S., and Park, N.-W., 2022. Combining conditional generative adversarial network and regression-based calibration for cloud removal of optical imagery. Korean Journal of Remote Sensing, 38(6-1), 1357-1369. https://doi.org/10.7780/kjrs.2022.38.6.1.28
  13. Lee, K. J., 2024. Current status of satellite development and application. Korean Journal of Remote Sensing, 40(5), 695-712. https://doi.org/10.7780/kjrs.2024.40.5.2.2
  14. Lee, K. J., Oh, K. Y., and Chae, T. B., 2019. Development and application status of microsatellites. Current Industrial and Technological Trends in Aerospace, 17(2), 113-124.
  15. Lee, K. S., 2021. Remote sensing principles and methods, CIR. https://books.google.co.kr/books?id=wviOzgEACAAJ
  16. Li, X., Du, Z., Huang, Y., and Tan, Z., 2021. A deep translation (GAN) based change detection network for optical and SAR remote sensing images. ISPRS Journal of Photogrammetry and Remote Sensing, 179, 14-34. https://doi.org/10.1016/j.isprsjprs.2021.07.007
  17. Lin, E., 2023. Comparative analysis of Pix2Pix and CycleGAN for imageto-image translation. Highlights in Science, Engineering and Technology, 39, 915-925. https://doi.org/10.54097/hset.v39i.6676
  18. Liu, P., Choo, K. K. R., Wang, L., and Huang, F., 2017. SVM or deep learning? A comparative study on remote sensing image classification. Soft Computing, 21, 7053-7065. https://doi.org/10.1007/s00500-016-2247-2
  19. Marta, S., 2018. Planet imagery product specifications, Planet Labs. https://assets.planet.com/docs/Combined-Imagery-Product-Spec-Dec-2018.pdf
  20. Militino, A. F., Ugarte, M. D., Pérez-Goya, U., and Genton, M. G., 2019. Interpolation of the mean anomalies for cloud filling in land surface temperature and normalized difference vegetation index. IEEE Transactions on Geoscience and Remote Sensing, 57(8), 6068-6078. https://doi.org/10.1109/TGRS.2019.2904193
  21. Park, N.-W., Park, M.-G., Kwak, G.-H., and Hong, S., 2023. Deep learningbased virtual optical image generation and its application to early crop mapping. Applied Sciences, 13(3), 1766. https://doi.org/10.3390/app13031766
  22. Park, S., and Park, N.-W., 2022. Cloud removal using Gaussian process regression for optical image reconstruction. Korean Journal of Remote Sensing, 38(4), 327-341. https://doi.org/10.7780/kjrs.2022.38.4.1
  23. Tsokas, A., Rysz, M., Pardalos, P. M., and Dipple, K., 2022. SAR data applications in earth observation: An overview. Expert Systems with Applications, 205, 117342. https://doi.org/10.1016/j.eswa.2022.117342
  24. Wang, L., Xu, X., Yu, Y., Yang, R., Gui, R., Xu, Z., and Pu, F., 2019. SARto-optical image translation using supervised cycle-consistent adversarial networks. IEEE Access, 7, 129136-129149. https://doi.org/10.1109/ACCESS.2019.2939649
  25. Xiong, Q., Li, G., Yao, X., and Zhang, X., 2023. SAR-to-optical image translation and cloud removal based on conditional generative adversarial networks: Literature survey, taxonomy, evaluation indicators, limits and future directions. Remote Sensing, 15(4), 1137. https://doi.org/10.3390/rs15041137
  26. Yun, Y., Jung, J., and Han, Y., 2024. Cloud restoration of optical satellite imagery using time-series spectral similarity group. GIScience & Remote Sensing, 61(1), 2324553. https://doi.org/10.1080/15481603.2024.2324553
  27. Zhu, J. Y., Park, T., Isola, P., and Efros, A. A., 2017. Unpaired image-toimage translation using cycle-consistent adversarial networks. arXiv preprint arXiv:1703.10593. https://doi.org/10.48550/arXiv.1703.10593

Research Article

Korean J. Remote Sens. 2024; 40(6): 881-893

Published online December 31, 2024 https://doi.org/10.7780/kjrs.2024.40.6.1.1

Copyright © Korean Society of Remote Sensing.

고해상도 광학영상 복원을 위한 딥러닝 기반 SAR-광학 영상 변환 모델 비교

박소연1, 곽근호2, 황의호3, 박노욱4*

1인하대학교 공간정보공학과 박사수료생
2농촌진흥청 국립농업과학원 농업위성센터 연구사
3K-water연구원 수자원위성센터 센터장
4인하대학교 공간정보공학과 교수

Received: November 12, 2024; Revised: November 25, 2024; Accepted: November 26, 2024

Comparison of Deep Learning-Based SAR-to-Optical Image Translation Models for High Spatial Resolution Optical Image Restoration

Soyeon Park1 , Geun-Ho Kwak2 , Eui Ho Hwang3 , No-Wook Park4*

1PhD Candidate, Department of Geoinformatic Engineering, Inha University, Incheon, Republic of Korea
2Researcher, National Agricultural Satellite Center, National Institute of Agricultural Sciences, Rural Development Administration, Wanju, Republic of Korea
3Director, Water Resources Satellite Center, K-water Research Institute, Daejeon, Republic of Korea
4Professor, Department of Geoinformatic Engineering, Inha University, Incheon, Republic of Korea

Correspondence to:No-Wook Park
E-mail: nwpark@inha.ac.kr

Received: November 12, 2024; Revised: November 25, 2024; Accepted: November 26, 2024

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Abstract

Despite the increased availability of high spatial resolution satellite images with high temporal resolution, including micro-satellite constellations, the restoration of missing regions due to clouds and cloud shadows in optical imagery remains crucial for constructing optical image time series. The translation of synthetic aperture radar (SAR) imagery into optical imagery, known as SAR-to-optical image translation, has been effectively applied for optical image restoration. However, few studies have applied SAR-to-optical image translation to restore missing regions in high spatial resolution optical imagery. This study evaluates the performance of SAR-to-optical image translation models using generative adversarial networks (GAN) for high spatial resolution optical image restoration. Three representative GAN-based models, including Pix2Pix, CycleGAN, and multi-temporal conditional GAN (MTcGAN), were selected in this study. MTcGAN, which utilizes additional multi-temporal SAR and optical image pairs, was particularly selected to investigate the effects of input images. SAR-to-optical image translation experiments were conducted using COSMO-SkyMed single-polarization images and multi-spectral PlanetScope images from the Gimje Plain area, with performance evaluation of predictions across various multi-temporal image pairs. The results showed that the spectral angle mapper values, which represent the multi-spectral band similarity, for Pix2Pix, CycleGAN, and MTcGAN were 9.1°, 13.4°, and 6.9° respectively, indicating that MTcGAN generated predictions most spectrally similar to actual optical images. Furthermore, MTcGAN effectively preserved detailed structural information in both quantitative and qualitative evaluations. These findings suggest that incorporating additional input features in deep learning-based SAR-to-optical image translation can improve prediction accuracy.

Keywords: Multi-sensor images, Image reconstruction, Cloud removal, Generative adversarial networks (GAN)

1. 서론

최근 국내외에서 고해상도 위성영상의 주기적인 획득을 위해 다양한 초소형 위성이 개발되고 있다(Lee et al., 2019; Hwang et al., 2020). 초소형 위성은 일반적으로 무게가 100 kg 이하인 위성을 의미하며(Lee, 2024), 이러한 위성들을 군집으로 운용하면 시간 및 공간해상도가 모두 높은 영상을 획득할 수 있다. 이로 인해 초소형 군집위성은 도심지, 농경지, 수계 등의 환경 모니터링뿐만 아니라 재난재해 탐지에도 유용하게 활용되고 있다(Lee et al., 2019; Chung et al., 2020). 초소형 군집위성의 탑재체는 광학센서뿐만 아니라 레이더 센서를 결합한 다중센서를 포함하고 있어 광학영상과 synthetic aperture radar (SAR) 영상을 모두 지원할 수 있다. SAR 영상은 기상 조건과 관계없이 주야간에 획득이 가능하여 농업, 환경, 재난 모니터링에 매우 유용하다(Tsokas et al., 2022). 반면, 광학영상은 구름 혹은 구름 그림자로 인해 기상 조건에 많은 영향을 받아 국내에서는 여름철 시계열 광학영상의 획득이 어렵다. 따라서 초소형 군집위성의 고해상도 광학영상을 효과적으로 활용하기 위해서는 구름 영역의 결측값을 복원하여 구름이 없는 영상을 생성하는 기술이 필요하다.

영상 복원이란 영상 내 결측값이 존재하는 영역에 대한 예측을 수행하여 결측이 없는 영상을 생성하는 기술을 의미한다. 이 연구에서 결측 지역은 광학영상 내 구름 혹은 구름 그림자 영역을 의미하여, 영상 복원은 구름 제거와 동일한 의미로 간주하였다. 영상 복원은 단일센서 자료를 사용하는 경우와 다중센서 자료를 사용하는 경우로 나눌 수 있다. 단일센서 자료를 사용하는 경우는 동일한 영상 내 다른 공간 영역의 정보나 다중시기 영상을 이용하는 방법이다. 구름 영역이 아닌 다른 영역으로부터 유사한 토지피복의 이웃화소값을 이용하여 보간 등으로 구름 영역의 결측값을 예측하여 영상을 복원한다(Militino et al., 2019; Yun et al., 2024). 그러나 이 방법은 구름이 아닌 영역에서 구름 영역과 유사한 토지피복 정보가 필요하며, 구름이 많거나 토지피복이 복잡한 지역에서는 한계가 있다. 또한 Park and Park(2022)은 기계학습을 이용하여 다중시기로 획득된 광학영상을 이용하여 구름 제거를 수행하였다. 다중시기로 획득된 광학영상을 사용하는 경우 시간에 따른 변화를 정량화할 수 있다면 구름 영역에 대한 구조적인 정보 등을 얻을 수 있기 때문에 효과적으로 복원이 가능하다. 그러나 여름철 구름이 지속되거나 홍수와 산불과 같은 재해재난 상황에는 구름이 없는 다중시기 영상 획득이 어려운 한계가 있다. 따라서 광학영상의 결측 지역을 복원하기 위해서는 기상 조건이나 구름에 관계 없이 지표면에 대한 정보를 획득할 수 있는 SAR 영상을 활용하여 다중센서 자료를 사용하는 방식이 효과적이다(Huang et al., 2015).

다중센서 자료를 이용한 영상 복원은 SAR 영상으로부터 광학영상의 결측 지역을 복원하는 과정을 의미하며, 주로 image-to-image translation 방법을 사용하였다. 구체적으로 이는 SAR-광학영상 변환(SAR-to-optical image translation)이라고 한다(Xiong et al., 2023). 광학영상은 지표면에서 반사된 태양 복사 에너지를 사용하는 반면 SAR 영상은 위성에서 발사한 마이크로파가 지표면에서 산란되는 안테나 방향으로 반사되는 에너지를 감지하기 때문에 두 영상은 서로 다른 에너지원 및 센서 구조를 가진다(Lee, 2021). 이러한 이유로 SAR와 광학영상은 서로 다른 물리적 특성을 가지며, 두 영상 간 도메인 차이가 매우 크다. 이와 같이 서로 다른 이미징 메커니즘으로 인한 복잡한 관계성을 모델링하는 것은 매우 어려운 작업이며, 이를 달성하는 것이 SAR-광학영상 변환의 가장 중요한 요소이다. 이를 해결하기 위해 SAR-광학영상 변환에는 비선형 관계성을 모델링하는데 효과적으로 알려진 딥러닝 모델이 주로 적용되어 왔다(Li et al., 2021).

다량의 훈련자료를 이용해 다중센서 자료 간 비선형 변환을 반복적으로 학습하는 딥러닝 모델은 영상 분류, 변화탐지 등 다양한 연구에서 일반적인 기계학습 모형보다 효과적으로 나타났다(Liu et al., 2017; Park et al., 2023). 특히 딥러닝 모델 기반의 SAR-광학영상 변환에는 생성적 적대 신경망(generative adversarial networks, GAN)을 기반으로 한 모델들이 주로 사용되어 왔다(Fuentes Reyes et al., 2019; Darbaghshahi et al., 2022). 그러나 대부분 SAR-광학영상 변환의 딥러닝 모델들은 Sentinel-1과 2와 같은 중해상도 위성영상을 대상으로 개발되거나 적용되어 왔다. 저해상도 대형 위성영상을 이용하면 다량의 영상을 비교적 쉽게 확보할 수 있어 충분한 훈련자료를 바탕으로 딥러닝 모델들을 효과적으로 적용할 수 있다. 그러나 고해상도 영상을 사용한 영상 복원은 다량의 자료 확보가 어렵고, 저해상도에서는 세부적으로 나타나지 않는 필지 간 경계 및 도로와 같은 공간 구조를 예측 결과에 반영할 수 있어야 한다. 따라서 고해상도 영상을 이용할 경우 다양한 딥러닝 모델들의 적용성 평가가 필요하다.

이 연구는 고해상도 광학영상의 구름 결측치 복원을 궁극적인 목표로, 영상 변환에 특화된 딥러닝 모델들을 평가하고 고해상도 광학영상 복원에 대한 제안점을 도출하는데 의의를 둔다. 이를 위해 김제 지역을 대상으로 고해상도 광학 및 SAR 위성인 PlanetScope와 COSMO-SkyMed를 이용한 SAR-광학영상 변환 사례 연구를 수행하였다. 딥러닝 모델로는 Pix2Pix와 CycleGAN 그리고 다중시기 입력자료를 이용하는 multi-temporal conditional GAN (MTcGAN)을 사용하였다. 고해상도 영상 자료 확보와 대상 지역을 고려하여 이 연구에서는 패치(patch) 단위의 훈련자료를 수집하고 가공하였다. 이후 딥러닝 모델들을 이용하여 SAR-광학영상 변환을 수행하고 복원된 광학영상과 실제 광학영상을 비교하여 모델의 예측 성능을 정량적· 정성적으로 분석하였다.

2. 연구 자료 및 방법

2.1. 연구 지역 및 사용 자료

SAR-광학영상 변환 사례 연구는 국내 최대 벼 생산지인 김제 지역을 대상으로 수행하였다. 벼는 5~6월에 모내기를 시작하여 여름철 가장 높은 식생 활력도를 보이며 9월부터 수확을 시작하는데, 여름철에는 장마, 홍수 등으로 인해 광학영상이 많은 구름 결측치를 포함한다. 따라서 김제 지역은 벼 모니터링에 가장 중요한 시기인 7, 8월에 구름이 없는 시계열 광학영상을 획득하기 어려운 지역이기 때문에 SAR-광학영상 변환으로 광학영상의 복원이 매우 필요한 지역이다. 또한 평 평한 지대로 구성된 김제 지역은 SAR 영상의 지형에 따른 영향을 최소화한다. 연구 지역은 대부분 논 필지로 구성되고 일부 시가지와 도로 그리고 하천과 작은 연못 등을 포함하고 있다(Fig. 1).

Figure 1. Optical and SAR imagery in the study area. (a) A false-color composite (near-infrared, red, and green bands as R-G-B) of PlanetScope imagery on July 6, 2019. (b) COSMO-SkyMed HH polarization imagery on July 10, 2019.

국내에서는 논을 필지 단위로 재배하므로 생산량을 추정하기 위해서는 명확한 필지 경계를 구분할 수 있는 고해상도 위성영상이 필요하다. 또한 작물의 생물계절적 변화가 짧은 시기에 빠르게 나타나기 때문에 시간해상도가 높은 위성영상이 요구된다. 이러한 배경에서 이 연구는 고해상도 군집위성 중 하나인 PlanetScope (PS) 영상을 광학영상으로, 그리고 시간해상도가 높은 대형 SAR 위성 중 하나인 COSMO-SkyMed (CSK) 영상을 SAR 영상으로 선정하였다(Table 1).

Table 1 . Summary of PlanetScope and COSMO-SkyMed images used in this study.

CategoryPlanetScopeCOSMO-SkyMed
Instrument/ModeDove-R (PS2.SD)Stripmap HIMAGE
ProductLevel 3B surface reflectanceLevel 1A single-look complex slant
BandBlue, green, red, near-infraredX-band HH polarization
Spatial resolution3 m3 m
Acquisition datesMay 24, 2019
July 6, 2019
Aug. 26, 2019
Sep. 30, 2019
May 24, 2019
July 10, 2019
Aug. 27, 2019
Sep. 29, 2019


PS는 Planet에서 운영하는 약 120개의 소형 CubeSat 군집위성으로 촬영된 고해상도 광학영상이다(Marta, 2018). 이 연구에서 사용한 PS 영상은 공간해상도 3 m의 Dove-R 위성 자료이며, Level 3B product의 지표 반사율 영상을 사용하였다. PS 영상은 blue, green, red, nearinfrared(NIR) 밴드로 구성되어 있다.

CSK는 이탈리아에서 개발한 SAR 대형위성으로, 총 4대의 SAR 위성군을 통해 짦은 재방문 주기로 동일 지역을 반복적으로 촬영한다(Battagliere et al., 2019). 이 연구에서 사용한 CSK 영상은 Stripmap HIMAGE 모드로 획득된 X-band의 HH 단일 편파 영상이며, Level 1A product의 single-look complex slant 자료로써 공간해상도는 PS 영상과 동일하게 3 m이다. CSK 영상의 single-look complex 자료는 multi looking, speckle filtering, 지형 보정 등의 전처리를 수행한 후 데시벨(decibel) 스케일의 후방 산란 계수로 변환하였다(Filipponi, 2019; Kwak et al., 2022). 지형보정은 국토지리정보원에서 제공한 공간해상도 5 m의 digital elevation map을 기반으로 수행하였다. CSK 영상은 최대값을 0, 최소값은 –30으로 설정하여 min-max 정규화를 통해 값의 범위가 [0,1]이 되도록 정규화하였다.

2.2. 방법론

이 연구에서 수행한 영상 복원 실험은 여름철 영상 확보의 어려움을

고려하여 광학영상의 모든 화소가 두꺼운 구름으로 완전히 덮여 있는 상황을 고려하였다. 이 연구에서 SAR 영상으로부터 복원된 광학영상은 딥러닝 모델들을 이용한 SAR-광학영상 변환으로 생성된 광학영상으로 정의한다. 또한 딥러닝 모델들의 예측 성능을 정량적으로 평가하기 위해 실제 구름이 없는 광학영상에 구름이 모두 존재한다는 가정 하에 SAR-광학영상 변환을 적용하였다. GAN 기반 딥러닝 모델로는 서로 다른 도메인 간 영상 변환에 특화된 대표적인 영상 변환 모델인 Pix2Pix와 CycleGAN을 선정하고 고해상도 SAR-광학영상 변환에 적용하였다. 또한 조건부 GAN을 입력자료 차원에서 확장하여 농경지 모니터링을 위한 저해상도 광학영상 생성에 우수한 예측 성능을 보였던MTcGAN을 함께 적용하고 비교하였다(Kwak and Park, 2024).

2.2.1. Pix2Pix

Pix2Pix는 paired image-to-image translation 방법 중 하나로 개발된 조건부 적대적 신경망(conditional GAN, cGAN) 모델이다(Isola et al., 2017). Pix2Pix는 기존 GAN이 무작위 잡음(random noise)을 입력으로 사용하는 것과 달리, 조건부로 영상을 대입하여 입력 영상과 생성된 영상 간의 관계를 학습한다. 즉, Pix2Pix는 입력과 출력 자료가 모두 영상이라는 점에서 기존 GAN과 차별화된다. Pix2Pix는 생성자(Generator)와 판별자(Discriminator) 두 개의 네트워크로 구성된다(Fig. 2). 생성자는 U-net 구조를 채택하여 인코더와 디코더로 이루어져 있다. SAR 영상을 입력 받은 인코더는 영상을 저차원으로 압축하여 특징을 추출하고, 디코더는 인코더에 입력받은 특징을 고차원으로 복원하면서 skip connection을 통해 인코더의 압축과정에서 손실된 정보를 유지하며 가상의 광학영상을 생성한다. 판별자는 PatchGAN 구조로 구성되어 있으며, 생성자가 만든 가상의 광학영상과 실제 광학영상을 작은 패치 단위로 나누어 각 패치를 비교함으로써 생성된 영상이 실제와 유사한지 판별한다. Pix2Pix는 생성자가 만든 영상이 실제 영상과 유사해지도록 두 네트워크가 서로 적대적으로 학습을 반복한다.

Figure 2. Schematic diagram of Pix2Pix (dotted lines represent the loss calculation process).

Pix2Pix의 두 네트워크는 각각 독립적으로 손실을 계산한 후, 최적화 함수(optimizer)를 통해 가중치를 갱신하며 자신의 손실을 최소화하는 방향으로 학습한다. 판별자의 손실은 적대적 손실(adversarial loss)로, 이진 교차 엔트로피(binary cross entropy, BCE)를 사용한다(Ho and Wookey, 2020). 적대적 손실은 판별자가 실제 광학영상을 진짜로, 생성된 가상의 광학영상을 가짜로 분류하는 성능을 평가하는 함수이다(식 1). 따라서 판별자는 실제 광학영상은 1에 가까운 값을, 생성자가 만든 영상에 대해서는 0에 가까운 값을 출력하도록 학습한다.

Discriminator loss=1N i=1 Nlog σ D^i real+log 1σ D^i generated

여기서 N은 패치 개수이며, D^ireal는 판별자가 실제 광학영상에 대한 출력값을, D^igenerated는 판별자가 생성된 광학영상에 대한 출력값을 의미한다. σ는 sigmoid 함수를 나타낸다.

Pix2Pix의 생성자 네트워크는 판별자가 생성된 가상의 광학영상을 실제 광학영상으로 분류하도록 BCE를 계산하여 손실을 적용한다.이 때 생성된 가상의 광학영상과 실제 광학영상 간의 절대적인 차이를 최소화하기 위해 L1 손실을 추가한다. 따라서 Pix2Pix의 생성자 네트워크의 손실 함수는 식(2)와 같이 정의된다.

Generator loss=1n i=1 nlogσ D^i generated+λi=1 n yiyi generated

여기서 n은 영상 화소 개수이며, yi는 실제 광학영상의 화소값을, yigenerated는 생성된 광학영상의 화소값을 의미한다. λ는 L1 손실의 가중치를 조절하는 하이퍼파라미터(hyperparameter)이다.

2.2.2. CycleGAN

CycleGAN은 대표적인 unpaired image-to-image translation 방법 중 하나로, 페어(pair) 영상 간 조건이 일치하지 않을 때 유용한 GAN 기반 모델이다(Zhu et al., 2017). 기존CycleGAN은 페어를 이루지 않는 영상으로도 학습할 수 있어 비지도 학습(unsupervised training) 모델로 분류된다. 이 연구에서는Pix2Pix와 마찬가지로 cGAN기반의CycleGAN을 고려하여 SAR-광학영상 페어를 입력으로 사용하였으며, 연구 지역 범위 및 해상도와 같은 영상 페어의 조건이 동일하다. 따라서 이 연구에서 적용한 CycleGAN은 paired 방식의 지도 학습(supervised training) 모델이다(Wang et al., 2019).

CycleGAN의 생성자와 판별자 네트워크는 쌍으로 구성되는데(Fig. 3), 각 생성자와 판별자 구조는 Pix2Pix와 동일하다. 먼저 생성자 네트워크에서는 두 개의 생성자가 사용된다. 첫 번째 생성자는 SAR 영상을 광학영상으로 변환하고, 두 번째 생성자는 광학영상을 SAR 영상으로 변환한다. 각 생성자에 대응되는 판별자가 존재하며, 판별자는 SAR와 광학영상 도메인에서 생성자가 만든 영상이 진짜인지 가짜인지 판별한다.

Figure 3. Schematic diagram of CycleGAN (dotted lines represent the loss calculation process).

CycleGAN의 주요 특징은 SAR 영상과 광학영상 도메인 간의 상호변환을 학습하고, 변환된 영상이 원래 도메인으로 다시 돌아갈 수 있도록 순환 일관성(cycle-consistency) 손실을 이용한다는 점이다. 따라서 CycleGAN은 두 도메인 간 차이를 유지하면서 원본 영상과 유사한 구조를 가지도록 영상을 생성할 수 있다. 순환 일관성 손실은 각 도메인에서 SAR와 광학영상 간의 L1 차이를 더하여 계산된다.

Total cycle loss=λ1n i=1 nxixi cycled+λ i=1 nyiyi cycled

여기서 xiyi는 각 도메인의 실제 SAR와 광학영상을 의미하고, xicycledyicycled는 각 도메인의 영상을 변환한 후 다시 원래 도메인으로 되돌린 SAR와 광학영상을 의미한다. 두 도메인에 대한 생성자의 최종 손실은 식(2)와 유사하게 생성된 가상의 광학영상에 대한 BCE를 각각 계산하고 식(3)을 더하여 계산된다. 또한 두 도메인에 대한 판별자의 손실은 식(1)과 같이 각각 계산된다. 이 후 CycleGAN도 Pix2Pix와 동일하게 최적화 함수를 통해 각 도메인의 가중치를 갱신하며 손실을 최소화하는 방향으로 학습한다.

2.2.3. MTcGAN

MTcGAN은 예측 시기에 획득된 SAR 영상 외에도 참조 시기에 획득된 SAR-광학영상 페어를 조건부로 추가 사용하는 변형된 cGAN 모델이다(He and Yokoya, 2018). MTcGAN은 Pix2Pix 모델과 동일한 모델 구조와 손실 함수를 사용하며, 입력 자료의 구성을 변경한 모델이다(Fig. 4). MTcGAN이 참조 시기의 영상 페어를 추가로 사용하는 기대효과는 다음과 같다. 첫째, 다중시기의 SAR 영상을 모델 훈련에 사용함으로써 시간에 따른 변화를 예측 결과에 반영하고 입력 자료의 다양성을 증진시킬 수 있다. 둘째, 참조시기의 광학영상을 모델 훈련에 사용함으로써 SAR 영상만으로는 완전히 반영할 수 없는 광학영상의 분광 및 구조적 정보를 예측 결과에 반영할 수 있다. MTcGAN은 Pix2Pix와 CycleGAN에 비해 더 많고 다양한 입력자료를 활용한 다는 점에서 이점을 가질 수 있지만, 예측시기와 참조시기 간의 관계성이 예측 결과에 영향을 미칠 수 있다. 영상 내 다양한 토지피복이 시간에 따라 점진적으로 혹은 급격하게 변화할 수 있으며, 예측시기와 시기적으로 가까운 참조시기의 영상 페어를 항상 확보할 수 있는 것도 아니므로 이러한 요소들을 고려하여 MTcGAN 모델을 적용해야 한다.

Figure 4. Schematic diagram of MTcGAN (dotted lines represent the loss calculation process). TR and TP represent the reference and prediction dates, respectively.

2.3. 실험 설계 및 평가

이 연구에서 사용한 딥러닝 모델들은 영상 변환에 범용적으로 적용이 가능하므로, 기존 연구에서 사용한 모델 구조와 하이퍼파라미터를 그대로 사용하였다(Kwak et al., 2022; Kwak and Park, 2024). 저해상도 영상 변환을 목적으로 하는 기존 연구와 달리, 이 연구는 국내 고해상도 영상을 이용한 SAR-광학영상 변환을 목적으로 하였으며, 이를 위해 고해상도 PS와 CSK 영상으로 훈련자료를 구성하였다. 고해상도 영상은 중저해상도 영상에 비해 상대적으로 좁은 범위로 촬 영되어 영상의 영역이 넓지 않다. 예를 들어, Sentinel-2 영상의 swath width는 약 290 km인 반면 PS 영상은 약 24 km이다. 즉 고해상도 영상 페어 자료는 영상 범위와 개수가 한정적이기 때문에 다량의 훈련자료를 추출하는데 한계가 있다. 이를 고려하여 PS와 CSK 영상의 공통 영역에 대해 훈련자료가 최대로 추출가능한 범위를 선정하였다.

훈련자료 영역에서 패치를 추출한 후 검증자료 영역에 해당하는 패치를 제외하고 모델 훈련에 사용하였다. SAR 영상의 기하하적 왜곡을 고려하여 훈련자료 영역은 바다를 제외하고 주로 평탄한 육지의 농경지를 대상으로 하였으며, 훈련 및 검증자료의 토지피복 분포는 유사하다. PS 영상의 전체 영역은 약 21,000 ha이며, 이 중 훈련자료 추출영역은 약 9,437 ha, 검증자료 추출영역은 훈련자료 추출영역의 10%에 해당하는 943 ha이다. 딥러닝 모델의 입력 자료는 공간해상도 3 m의 256 × 256 화소 크기의 패치로 추출하였다. 패치들은 50%씩 겹쳐 추출하여 훈련자료는 총 500개, 검증자료는 총 50개 패치를 구성하였다. 고해상도 영상 페어 자료로부터 추출된 한정된 훈련자료를 이용하면 모델 훈련 시 과적합이 발생할 수 있기 때문에 훈련자료에 대한 다양성을 증가시키기 위한 대안으로 상하좌우 반전과 회전을 포함한 데이터 증강(data augmentation)을 적용하였다. 각 딥러닝 모델은 총 500 epoch으로 훈련하였다.

다중센서 영상은 김제 지역의 벼 생육주기에 해당하는 5월 말부터 9월까지, 6월을 제외하고 매달 한 번씩 획득되었다(Fig. 5). SAR와 광학영상 페어는 동일한 시기에 획득되었거나 최대 4일의 차이가 있다. 광학영상 복원은 각 시기별로 수행되었고, MTcGAN은 이전 시기에서 가장 가까운 페어를 참조시기로 사용하였다(Table 2). Case 1의 경우 예측 시기인 5월은 벼 이앙시기로 하단부 필지에는 물이 차있는 상태이기 때문에 상단부 필지와 토지피복 상태가 다르다. SAR 영상에서 어둡게 나타나는 필지가 물대기를 한 논이다(Fig. 5). 따라서 Case 1은 동일한 형태의 필지가 영상 내에서 분광학적으로 다른 패턴을 보이는 경우이다. 참조시기인 7월은 벼가 생장 중인 시기로, 5월의 필지 상태와 크게 다르다. Case 2는 예측시기가 8월로, 대부분의 필지에 벼가 자라있는 상태이다. 이는 참조시기인 7월에서 8월로 넘어가는 과정에서 벼의 생장에 따라 점진적인 반사율 변화가 나타나는 경우이다. Case 2는 참조시기와 예측시기 사이의 시기 차이가 51일로 가장 큰 경우에 해당한다. Case 3은 예측 시기인 9월에 일부 논이 수확되어 필지가 나지가 된 상태이다. 이 때 참조시기는 벼 생장이 최고점에 이른 8월이고 시기 차이는 35일로 가장 작으나 광학영상에서는 예측시기인 9월과 토지피복 상태가 다르다. 그러나 SAR 영상에서는 두 시기 간 밝기값 차이가 두드러지지 않고 상관계수 값도 0.42로 가장 높다. 9월의 광학영상에서는 하단부 일부 필지가 나지 상태로 뚜렷하게 나타나지만, SAR 영상에서는 벼와 나지 필지의 구분이 명확하지 않다(Fig. 5).

Figure 5. Multi-temporal PlanetScope and COSMO-SkyMed images in the test area.

Table 2 . List of experimental cases.

CaseReference datePrediction dateTime differenceCorrelation
1July 6, 2019May 24, 201943 days0.27
2July 6, 2019Aug. 26, 201951 days0.25
3Aug. 26, 2019Sep. 30, 201935 days0.42

Reference date is used only for the MTcGAN model. The correlation coefficient was calculated based on the SAR image..



이 연구에서는 SAR 영상의 단일 편파로부터 생성된 광학영상의 4개 밴드에 대해 예측 정확도를 계산하고, 각 모델의 예측 결과를 비교분석하였다. 모델별 정량적 예측 성능을 비교하기 위해 검증자료 영역의 PS 영상을 참값으로 간주하고 복원된 광학영상과의 밴드별 예측 오차를 계산하였다. 다중분광 밴드 간의 반사율 차이를 조정하기 위해 상대적 오차(relative root mean square error, RRMSE)를 계산하였다. 또한 복원된 영상과 실제 영상 간 구조적 유사도를 나타내는 structural similarity indexmeasure (SSIM)과 다중밴드 유사도를 각도(°)로 측정하는 spectral angle mapper (SAM)를 계산하였다. SAM은 식(4)와 같이 계산된다.

SAM=cos1 b=1Byb y^b b=1B yb2 b=1B y^b2 ×180π

여기서 B는 전체 분광밴드 개수이며, yby^b는 각 분광밴드 별 실제 영상과 복원된 영상을 의미한다. RRMSE과 SSIM은 0과 1 사이의 값을 가지며, RRMSE은 0에 가까울수록 SSIM은 1에 가까울수록 예측 성능이 높음을 의미한다. SAM은 0°에 가까울수록 복원된 영상이 실제 영상과 유사함을 나타낸다.

3. 연구 결과 및 토의

Table 3은 세 가지 SAR-광학영상 변환 실험에서 딥러닝 모델들의 정량적인 예측 성능을 보여준다. 먼저 모든 경우에서MTcGAN의 예측 성능이 Pix2Pix와 CycleGAN보다 우수하였다. Case 1의 blue, green, red 밴드에서는 세 모델 모두 다른 경우에 비해 평균적으로 낮은 오차를 보였지만 NIR 밴드에서는 오차가 특히 크게 나타났다. CycleGAN은 NIR 밴드에서 0.6이상의 RRMSE를 보여 식생의 반사율을 제대로 예측하지 못하였다. 반면, Pix2Pix와 MTcGAN은 각각 0.24와 0.18로 상대적으로 높은 성능을 보였다. 이러한 경향은 SSIM에서도 동일하게 나타났으며, NIR 밴드를 제외한 경우 평균적으로 0.93 이상의 높은 구조적 유사도를 보였다. 다중밴드 유사도를 나타나는 SAM에서 도 MTcGAN이 9.45°로 가장 높은 유사도를 보였다. MTcGAN은 논에 물이 차있는 5월과 식생이 자라는 7월 사이의 급격한 반사율 변화에도 7월 영상을 추가로 활용하여 가장 높은 정확도를 갖는 광학영상을 생성하였다.

Table 3 . Band-wise accuracy statistics of three models for experimental cases.

StatisticsBandCase 1Case 2Case 3
Pix2PixCycleGANMTcGANPix2PixCycleGANMTcGANPix2PixCycleGANMTcGAN
RRMSEBlue0.17840.19280.12170.35370.43660.18620.29330.32960.1792
Green0.18090.21110.13190.26740.33130.14360.23170.27290.2105
Red0.25060.28200.18960.45110.56360.24680.34410.40070.2808
NIR0.24290.62560.17940.14190.22130.11880.20020.26290.1380
SSIMBlue0.95230.94580.97600.92680.90120.98120.93920.93070.9769
Green0.93900.92690.96710.92480.89990.98220.93840.92810.9641
Red0.90240.88670.94510.87800.83540.96660.89020.87030.9361
NIR0.78000.57610.84400.79480.74230.85190.79690.76170.8904
SAM (°)-12.8123.889.459.0513.416.9211.5615.447.96

The best accuracy is shown in bold..



Case 2의 8월은 대부분 필지에 식생이 자라있는 상태로, 연구 지역 내 반사율 변화가 크지 않은 경우이다. 이 경우 Pix2Pix와 CycleGAN은 다른 경우에 비해 상대적으로 높은 예측 정확도를 보였다. 특히 Case 1에서 NIR 밴드의 높은 예측 오차와 달리 Case 2에서는 Pix2Pix와 CycleGAN 각각 0.14와 0.22의 더 낮은 RRMSE를 보였다. 또한 MTcGAN은 식생의 점진적인 변화가 발생한 7월과 8월 영상을 사용하여 6.9°로 가장 높은 SAM 값을 기록했다. Case 3은 Case 1에 비해 영상 내 토지피복 상태 변화가 상대적으로 적은 경우이다. 이 경우 Pix2Pix와 CycleGAN은 NIR 밴드 기준으로 Case 2보다 각각 0.2와 0.26으로 낮은 예측 정확도를 보였으나 Case 1보다는 더 높은 예측 정확도를 나타냈다.

정량적인 평가 결과, 세 모델 모두 연구 지역 내 혹은 시기 간 급격한 변화가 없는 경우(Case 2)에서 가장 우수한 예측 성능을 보였다. 반면, Pix2Pix와 CycleGAN은 동일한 영상 내 서로 다른 토지피복 상태가 혼합된 경우(Case 1과 3) NIR 밴드에서 예측 성능이 저하되었다. MTcGAN은 추가적인 시기의 SAR-광학 페어를 사용하여 시간에 따른 변화를 학습함으로써, 토지피복 상태가 달라져도 높은 예측 성능으로 광학영상을 생성할 수 있었다.

세 경우에 대한 각 모델별 예측 결과를 실제 광학영상과 비교한 결과(Fig. 6), Case 1에서는 하단의 논 필지에서 CycleGAN이 NIR 밴드의 반사율을 매우 높게 예측한 양상이 두드러졌다. 이는 Table 3에서 CycleGAN의 NIR 밴드 예측 오차가 크게 나타난 이유로, CycleGAN이 SAR 영상에서 물로 인해 낮게 나타나는 부분을 NIR 밴드에서 모두 높게 예측했기 때문이다. 반면, Pix2Pix와MTcGAN은 시각적으로 PS 영상과 매우 유사한 분광패턴을 보였다. Case 2에서는 연구 지역 내 모든 필지에 식생이 존재하여 NIR 밴드에서의 값이 높아 모두 붉게 나타났다. SAR 영상에서도 값의 변화가 크지 않았기 때문에 세 모델 모두 NIR 밴드의 높은 값을 잘 반영하였다. Case 3에서는 Pix2Pix와 CycleGAN은 하단의 나지 필지를 제대로 예측하지 못하고 붉게 나타나는 양상을 보였다. 광학영상에서는 상단과 하단의 필지가 서로 다른 분광패턴을 보이고 있지만 SAR 영상에서는 두 영역의 필지가 서로 유사하게 나타나고 있기 때문에 두 모델이 SAR 영상의 영향으로 인해 영역 간 차이를 제대로 반영하지 못하였다. 또한 Case 3에서 Pix2Pix와 CycleGAN모두 광학영상의 고해상도 구조를 구현하지 못하였는데, 이는 SAR 영상의 구조를 그대로 반영한 것으로 보인다. 반면, MTcGAN은 8월 시기의 SAR 영상을 함께 사용하여 하단 필지의 급격한 반사율 변화를 학습함으로써 실제 PS 영상과 가장 유사한 결과를 생성하였고, 반듯한 형태의 필지들도 잘 구현하였다.

Figure 6. Visual comparison of prediction results from three models with a false-color composite (near-infrared, red, and green bands as R-G-B) of PlanetScope images and COSMO-SkyMed images for three cases.

Fig. 7은 Case 1에서 모델별 예측 결과를 일부 확대하여 보여준다.이 경우 Fig. 7에서 붉은색으로 보이는 필지에는 식생이 존재하고 녹색으로 나타난 필지는 물이 존재하는 논을 나타낸다. A 지역을 보면, 세 모델 모두 필지 사이의 도로를 잘 예측하였다. 이는 SAR 영상에서 도로가 높은 값으로 나타나 주변 필지와의 경계가 뚜렷하기 때문이다. Pix2Pix와MTcGAN은 논 필지에서 실제 PS 영상과 유사한 분광패턴을 보이는 반면, CycleGAN은 녹색으로 보여야 하는 필지를 붉은색으로 예측하였다. CycleGAN은 SAR 영상에서 낮은 값으로 나타나는 필지에 대해 광학영상의 NIR 밴드 값을 높게 예측하는 경향이 두드러졌다. 이는 SAR 영상이 CycleGAN의 예측에 더 큰 영향을 미친다는 것을 의미한다. 이러한 현상은 타 모델과는 다르게 SAR-광학 변환뿐 아니라 광학-SAR 변환을 함께 학습하는 CycleGAN의 순환 학습 특성 때문인 것으로 보인다.

Figure 7. Visual comparison of prediction results from three models with a false-color composite (near-infrared, red, and green bands as R-G-B) of PlanetScope imagery at two dates and COSMO-SkyMed imagery in three subareas for Case 1. TR and TP represent the reference and prediction dates, respectively, while yellow boxes indicate the locations of the subareas.

B 지역은 도심지를 포함된 영역으로, Pix2Pix와 CycleGAN은 마을의 구체적인 구조와 형태를 제대로 표현하지 못하였다. 특히 CycleGAN은 마을과 필지 간 경계가 모호하게 나타났고 Pix2Pix는 경계가 흐릿해 보이는 blur 현상이 발생하였다. 반면MTcGAN은 도로와 마을 등 고해상도 영상에서 나타나는 세부적인 공간 구조를 잘 반영하고 있으며, 이는 SAR 영상에서는 나타나지 않은 특징들을 참조 시기의 광학영상으로부터 반영한 것으로 보인다.

C 지역은 필지 경계 부근의 하천이 포함된 영역으로, Pix2Pix는 하천의 낮은 반사율을 벼 필지와 유사하게 예측을 하여 필지와 하천 사이의 경계가 모호하게 나타났다. CycleGAN은 A 지역과 마찬가지로 SAR 영상에서 낮은 값을 보이는 하천을 NIR 밴드에서 높게 예측하여 붉게 표현하였으나, 하천과 필지의 경계는 명확하게 예측하였다. 두 모델과 비교해MTcGAN은 실제 PS 영상과 매우 유사한 분광패턴과 공간 구조를 잘 반영하였다.

Fig. 8은 Case 2에서 각 모델의 예측 결과를 일부 확대하여 보여준다. A 지역에 대해 Fig. 7과 비교했을 때, Fig. 8에서는 벼가 모두 자라 있어 SAR 영상에서 필지 간 반사율 차이와 경계가 뚜렷하지 않다. 이러한 경우 Pix2Pix와 CycleGAN은NIR 밴드에서 높은 분광패턴을 잘 반영했지만 도로 경계가 무너지거나 흐려지는 현상이 발생하였다. 반면MTcGAN은 실제 광학영상과 매우 높은 유사도를 보여 도로와 시가지 부분도 잘 예측하였다. B 지역은 연못이 포함된 영역으로, Pix2Pix와MTcGAN은 SAR 영상에서 어둡게 나타나는 물은 잘 예측한 반면 CycleGAN은 이를 도로와 유사한 반사율로 잘못 예측하였다. C 지역은 Fig. 7의 C 지역과 같은 곳인데, Fig. 7에서는 CycleGAN이 Pix2Pix에 비해 구조적인 정보를 더 명확하게 예측하였으나 Fig. 8에서는 경계가 흐려지는 결과를 보였다. Pix2Pix와 CycleGAN은 SAR 영상에서 구조적인 특징이 뚜렷하지 않을 때 실제 광학영상과의 유사도가 낮은 예측 결과를 생성하였고, MTcGAN은 SAR 영상의 특징에 강인하게 대응하며 실제 광학영상과 가장 유사한 예측 결과를 생성하였다.

Figure 8. Visual comparison of prediction results from three models with a false-color composite (near-infrared, red, and green bands as R-G-B) of PlanetScope images at two dates and COSMO-SkyMed imagery in three subareas for Case 2. TR and TP represent the reference and prediction dates, respectively, while yellow boxes indicate the locations of the subareas.

Fig. 9은 Case 3에서 각 밴드별로 모델의 예측 값과 실제 PS 영상의 반사율을 비교한 산점도를 보여준다. Pix2Pix와 CycleGAN은 4개 밴드에서 서로 유사한 형태의 산점도를 보이고 있는데, 참값과 큰 차이를 보이는 분포를 나타낸다. RGB 밴드에서 두 모델의 결정계수(R2)가 모두 음수로 나타났고, NIR 밴드에서 Pix2Pix와 CycleGAN의 결정계수는 각각 0에 가까운 0.022와 강한 음수값인 –0.685를 나타내 잘 예측하지 못하였다. 반면MTcGAN은 y=x 선에 더 근접하여 분포의 밀집도가 높은 형태의 산점도를 보였다. 또한 NIR 밴드에서MTcGAN의 결정계수는 0.5로 가장 높은 양의 값을 보여 참값에 더 가까운 예측을 한 것을 의미한다. 또한 Pix2Pix와 CycleGAN은 주로 과추정 경향을 보이는 반면 MTcGAN은 green과 red 밴드에서는 저추정을, blue와 NIR 밴드에서는 참값에 유사한 결과를 나타낸다. 연구 지역은 주로 논으로 이루어져 있어 NIR 밴드의 예측 정확성이 중요한데 MTcGAN이 이를 가장 잘 예측하였다. 또한 blue, green, red 밴드에서 도 유사도가 높은MTcGAN은 구름이 하천과 연못 등에 분포하는 경우에도 두 모델에 비해 다양한 토지피복의 광학영상 복원 능력이 더 우수함을 확인할 수 있다.

Figure 9. Scatter density plots of true and predicted values of three models (rows) and each spectral band (columns) in Case 3. R2 represents the coefficient of determination.

딥러닝 모델의 입력자료 측면에서 Pix2Pix는 단일 편파 SAR 자료만으로는 다중밴드 광학영상의 분광학적 패턴을 모두 반영하는 데 한계가 있다. 특히 Fig. 7과 8의 A 지역처럼 SAR 영상에서 다양한 토지피복에 대한 후방산란계수 차이가 크지 않을 경우, 공간적 구조를 반영하기 어렵다. 이러한 한계는 다른 시기에 획득된 SAR-광학영상 페어를 추가하여 극복할 수 있었다. MTcGAN는 다중시기 SAR 영상에서 학습한 시간에 따른 변화와 참조 시기의 광학영상에서 고해상도 구조 정보를 효과적으로 추출하여 예측 결과에 반영할 수 있음을 보여주었다.

또한 모델의 구조적인 측면에서 Pix2Pix와 MTcGAN은 단일 구조로 광학영상을 생성하는 반면, SAR-광학 변환을 순환 구조로 학습하 는CycleGAN은 이 연구에서 뛰어난 성능을 보이지 못하였다. 기존 연구에 따르면 unpaired 경우에서 Pix2Pix보다 CycleGAN이 더 나은 성능을 보일 수 있으나(Lin, 2023), 이 연구의 paired 경우에서는 Pix2Pix가 더 좋은 성능을 보였다. 또한 SAR와 광학영상처럼 두 영상 간 도메인 차이가 클 경우 SAR 영상에서 광학영상을 생성하는 과정이 중요하지만, CycleGAN은 반대 과정인 광학영상에서 SAR 영상을 생성하는 과정이 함께 적용되면서 SAR 영상에 의존하는 광학영상을 생성하였다. 따라서 이 연구 결과는 SAR-광학영상 변환에 딥러닝 모델을 적용할 때, SAR 영상에서 광학영상을 생성하는 단일 구조가 더 적 합하고, 단일 SAR 영상보다 더 다양한 입력자료를 추가하는 것이 광학영상 복원에 더 기여할 수 있음을 보여준다.

4. 결론

이 연구에서는 고해상도 광학영상 복원을 위해 SAR-광학영상 변환을 수행하고, 복원된 영상을 실제 광학영상과 비교분석하였다. 고해상도 SAR 위성인 CSK와 광학 위성인 PS 영상을 이용하여 시기별로 다양한 특징을 보이는 김제 지역을 대상으로 세 가지 대표적인 GAN 기반 딥러닝 모델들을 적용하였다. 사례 연구 결과, CSK 영상에서 필지 간 뚜렷한 대비가 나타날 때 세 모델 모두 고해상도 구조를 예측 결과에 잘 반영했으나, CycleGAN은 CSK영상의 패턴에 의존하여 실제 광학영상과는 다른 분광패턴을 보였다. 또한 Pix2Pix와CycleGAN은 CSK 영상에서 대비가 뚜렷하지 않을 때 낮은 예측 성능을 보여 필지 경계가 흐려지고 무너지는 경향이 나타났다. 반면, MTcGAN은 이러한 상황에서도 안정적으로 실제 PS 영상과 구조적 및 분광학적으로 유사한 광학영상을 생성하였다. 이러한 연구 결과는 딥러닝 모델을 이용하여 SAR-광학영상 변환을 수행할 경우 입력자료의 특징이 예측 결과에 큰 영향을 미치며, 다른 시기의 SAR-광학영상 페어를 추가적으로 사용하면 효과적으로 광학영상을 복원할 수 있음을 확인하 였다. 그러나 항상 다른 시기의 영상 페어를 사용할 수 있는 것은 아니므로, SAR 영상에서 추가적인 특징을 추출하여 학습하는 등 제한된 입력자료에서 다양한 특징을 활용할 수 있는 방안이 필요하다. 또한이 연구는 영상 복원 기술이 가장 유용하게 적용될 수 있는 농경지를 대상으로 하였으나, 다양한 토지피복을 포함하는 지역에 대한 추가 비교 연구가 필요하다. 마지막으로 이 연구에서는 영상 전체에 구름이 존재한다고 가정하고 SAR 영상 전체로부터 광학영상을 복원하는 실험을 수행하였다. 그러나 구름이 일부만 존재하는 경우에는 구름 영역의 SAR 영상을 광학영상으로 변환하고 구름이 아닌 영역의 정보를 활용하여 광학영상을 복원하는 연구도 고려할 필요가 있다.

사사

이 논문은 2023년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No. RS-2024-00397964, 초소형 위성영상 기반 주요 지역 분석 및 실감화 지능 기술 개발).

Conflict of Interest

No potential conflict of interest relevant to this article was reported.

Fig 1.

Figure 1.Optical and SAR imagery in the study area. (a) A false-color composite (near-infrared, red, and green bands as R-G-B) of PlanetScope imagery on July 6, 2019. (b) COSMO-SkyMed HH polarization imagery on July 10, 2019.
Korean Journal of Remote Sensing 2024; 40: 881-893https://doi.org/10.7780/kjrs.2024.40.6.1.1

Fig 2.

Figure 2.Schematic diagram of Pix2Pix (dotted lines represent the loss calculation process).
Korean Journal of Remote Sensing 2024; 40: 881-893https://doi.org/10.7780/kjrs.2024.40.6.1.1

Fig 3.

Figure 3.Schematic diagram of CycleGAN (dotted lines represent the loss calculation process).
Korean Journal of Remote Sensing 2024; 40: 881-893https://doi.org/10.7780/kjrs.2024.40.6.1.1

Fig 4.

Figure 4.Schematic diagram of MTcGAN (dotted lines represent the loss calculation process). TR and TP represent the reference and prediction dates, respectively.
Korean Journal of Remote Sensing 2024; 40: 881-893https://doi.org/10.7780/kjrs.2024.40.6.1.1

Fig 5.

Figure 5.Multi-temporal PlanetScope and COSMO-SkyMed images in the test area.
Korean Journal of Remote Sensing 2024; 40: 881-893https://doi.org/10.7780/kjrs.2024.40.6.1.1

Fig 6.

Figure 6.Visual comparison of prediction results from three models with a false-color composite (near-infrared, red, and green bands as R-G-B) of PlanetScope images and COSMO-SkyMed images for three cases.
Korean Journal of Remote Sensing 2024; 40: 881-893https://doi.org/10.7780/kjrs.2024.40.6.1.1

Fig 7.

Figure 7.Visual comparison of prediction results from three models with a false-color composite (near-infrared, red, and green bands as R-G-B) of PlanetScope imagery at two dates and COSMO-SkyMed imagery in three subareas for Case 1. TR and TP represent the reference and prediction dates, respectively, while yellow boxes indicate the locations of the subareas.
Korean Journal of Remote Sensing 2024; 40: 881-893https://doi.org/10.7780/kjrs.2024.40.6.1.1

Fig 8.

Figure 8.Visual comparison of prediction results from three models with a false-color composite (near-infrared, red, and green bands as R-G-B) of PlanetScope images at two dates and COSMO-SkyMed imagery in three subareas for Case 2. TR and TP represent the reference and prediction dates, respectively, while yellow boxes indicate the locations of the subareas.
Korean Journal of Remote Sensing 2024; 40: 881-893https://doi.org/10.7780/kjrs.2024.40.6.1.1

Fig 9.

Figure 9.Scatter density plots of true and predicted values of three models (rows) and each spectral band (columns) in Case 3. R2 represents the coefficient of determination.
Korean Journal of Remote Sensing 2024; 40: 881-893https://doi.org/10.7780/kjrs.2024.40.6.1.1

Table 1 . Summary of PlanetScope and COSMO-SkyMed images used in this study.

CategoryPlanetScopeCOSMO-SkyMed
Instrument/ModeDove-R (PS2.SD)Stripmap HIMAGE
ProductLevel 3B surface reflectanceLevel 1A single-look complex slant
BandBlue, green, red, near-infraredX-band HH polarization
Spatial resolution3 m3 m
Acquisition datesMay 24, 2019
July 6, 2019
Aug. 26, 2019
Sep. 30, 2019
May 24, 2019
July 10, 2019
Aug. 27, 2019
Sep. 29, 2019

Table 2 . List of experimental cases.

CaseReference datePrediction dateTime differenceCorrelation
1July 6, 2019May 24, 201943 days0.27
2July 6, 2019Aug. 26, 201951 days0.25
3Aug. 26, 2019Sep. 30, 201935 days0.42

Reference date is used only for the MTcGAN model. The correlation coefficient was calculated based on the SAR image..


Table 3 . Band-wise accuracy statistics of three models for experimental cases.

StatisticsBandCase 1Case 2Case 3
Pix2PixCycleGANMTcGANPix2PixCycleGANMTcGANPix2PixCycleGANMTcGAN
RRMSEBlue0.17840.19280.12170.35370.43660.18620.29330.32960.1792
Green0.18090.21110.13190.26740.33130.14360.23170.27290.2105
Red0.25060.28200.18960.45110.56360.24680.34410.40070.2808
NIR0.24290.62560.17940.14190.22130.11880.20020.26290.1380
SSIMBlue0.95230.94580.97600.92680.90120.98120.93920.93070.9769
Green0.93900.92690.96710.92480.89990.98220.93840.92810.9641
Red0.90240.88670.94510.87800.83540.96660.89020.87030.9361
NIR0.78000.57610.84400.79480.74230.85190.79690.76170.8904
SAM (°)-12.8123.889.459.0513.416.9211.5615.447.96

The best accuracy is shown in bold..


References

  1. Battagliere, M. L., Fiorentino, C., and Virelli, M., 2019. COSMO-SkyMed mission and products description (Report No. ASI-CSM-PMGNT-001). Italian Space Agency. https://www.asi.it/wp-content/uploads/2021/02/COSMO-SkyMed-Mission-and-Products-Description_rev3-1.pdf
  2. Chung, M., Han, Y., and Kim, Y., 2020. A framework for unsupervised wildfire damage assessment using VHR satellite images with PlanetScope data. Remote Sensing, 12(22), 3835. https://doi.org/10.3390/rs12223835
  3. Darbaghshahi, F. N., Mohammadi, M. R., and Soryani, M., 2022. Cloud removal in remote sensing images using generative adversarial networks and SAR-to-optical image translation. IEEE Transactions on Geoscience and Remote Sensing, 60, 4105309. https://doi.org/10.1109/TGRS.2021.3131035
  4. Filipponi, F., 2019. Sentinel-1 GRD preprocessing workflow. Proceedings, 18(1), 11. https://doi.org/10.3390/ECRS-3-06201
  5. Fuentes Reyes, M., Auer, S., Merkle, N., Henry, C., and Schmitt, M., 2019. SAR-to-optical image translation based on conditional generative adversarial networks-Optimization, opportunities and limits. Remote Sensing, 11(17), 2067. https://doi.org/10.3390/rs11172067
  6. He, W., and Yokoya, N., 2018. Multi-temporal Sentinel-1 and-2 data fusion for optical image simulation. ISPRS International Journal of Geo-Information, 7(10), 389. https://doi.org/10.3390/ijgi7100389
  7. Ho, Y., and Wookey, S., 2020. The real-world-weight cross-entropy loss function: Modeling the costs of mislabeling. IEEE Access, 8, 4806-4813. https://doi.org/10.1109/ACCESS.2019.2962617
  8. Huang, B., Li, Y., Han, X., Cui, Y., Li, W., and Li, R., 2015. Cloud removal from optical satellite imagery with SAR imagery using sparse representation. IEEE Geoscience and Remote Sensing Letters, 12(5), 1046-1050. https://doi.org/10.1109/LGRS.2014.2377476
  9. Hwang, S., Jung, H., and Kwon, S. J., 2020. A survey on smallest launch demand and domestic space transportation industry. Current Industrial and Technological Trends in Aerospace, 18(1), 28-36.
  10. Isola, P., Zhu, J. Y., Zhou, T., and Efros, A. A., 2017. Image-to-image translation with conditional adversarial networks. arXiv preprint arXiv:1611.07004. https://doi.org/10.48550/arXiv.1611.07004
  11. Kwak, G.-H., and Park, N.-W., 2024. Assessing the potential of multitemporal conditional generative adversarial networks in SARto-optical image translation for early-stage crop monitoring. Remote Sensing, 16(7), 1199. https://doi.org/10.3390/rs16071199
  12. Kwak, G.-H., Park, S., and Park, N.-W., 2022. Combining conditional generative adversarial network and regression-based calibration for cloud removal of optical imagery. Korean Journal of Remote Sensing, 38(6-1), 1357-1369. https://doi.org/10.7780/kjrs.2022.38.6.1.28
  13. Lee, K. J., 2024. Current status of satellite development and application. Korean Journal of Remote Sensing, 40(5), 695-712. https://doi.org/10.7780/kjrs.2024.40.5.2.2
  14. Lee, K. J., Oh, K. Y., and Chae, T. B., 2019. Development and application status of microsatellites. Current Industrial and Technological Trends in Aerospace, 17(2), 113-124.
  15. Lee, K. S., 2021. Remote sensing principles and methods, CIR. https://books.google.co.kr/books?id=wviOzgEACAAJ
  16. Li, X., Du, Z., Huang, Y., and Tan, Z., 2021. A deep translation (GAN) based change detection network for optical and SAR remote sensing images. ISPRS Journal of Photogrammetry and Remote Sensing, 179, 14-34. https://doi.org/10.1016/j.isprsjprs.2021.07.007
  17. Lin, E., 2023. Comparative analysis of Pix2Pix and CycleGAN for imageto-image translation. Highlights in Science, Engineering and Technology, 39, 915-925. https://doi.org/10.54097/hset.v39i.6676
  18. Liu, P., Choo, K. K. R., Wang, L., and Huang, F., 2017. SVM or deep learning? A comparative study on remote sensing image classification. Soft Computing, 21, 7053-7065. https://doi.org/10.1007/s00500-016-2247-2
  19. Marta, S., 2018. Planet imagery product specifications, Planet Labs. https://assets.planet.com/docs/Combined-Imagery-Product-Spec-Dec-2018.pdf
  20. Militino, A. F., Ugarte, M. D., Pérez-Goya, U., and Genton, M. G., 2019. Interpolation of the mean anomalies for cloud filling in land surface temperature and normalized difference vegetation index. IEEE Transactions on Geoscience and Remote Sensing, 57(8), 6068-6078. https://doi.org/10.1109/TGRS.2019.2904193
  21. Park, N.-W., Park, M.-G., Kwak, G.-H., and Hong, S., 2023. Deep learningbased virtual optical image generation and its application to early crop mapping. Applied Sciences, 13(3), 1766. https://doi.org/10.3390/app13031766
  22. Park, S., and Park, N.-W., 2022. Cloud removal using Gaussian process regression for optical image reconstruction. Korean Journal of Remote Sensing, 38(4), 327-341. https://doi.org/10.7780/kjrs.2022.38.4.1
  23. Tsokas, A., Rysz, M., Pardalos, P. M., and Dipple, K., 2022. SAR data applications in earth observation: An overview. Expert Systems with Applications, 205, 117342. https://doi.org/10.1016/j.eswa.2022.117342
  24. Wang, L., Xu, X., Yu, Y., Yang, R., Gui, R., Xu, Z., and Pu, F., 2019. SARto-optical image translation using supervised cycle-consistent adversarial networks. IEEE Access, 7, 129136-129149. https://doi.org/10.1109/ACCESS.2019.2939649
  25. Xiong, Q., Li, G., Yao, X., and Zhang, X., 2023. SAR-to-optical image translation and cloud removal based on conditional generative adversarial networks: Literature survey, taxonomy, evaluation indicators, limits and future directions. Remote Sensing, 15(4), 1137. https://doi.org/10.3390/rs15041137
  26. Yun, Y., Jung, J., and Han, Y., 2024. Cloud restoration of optical satellite imagery using time-series spectral similarity group. GIScience & Remote Sensing, 61(1), 2324553. https://doi.org/10.1080/15481603.2024.2324553
  27. Zhu, J. Y., Park, T., Isola, P., and Efros, A. A., 2017. Unpaired image-toimage translation using cycle-consistent adversarial networks. arXiv preprint arXiv:1703.10593. https://doi.org/10.48550/arXiv.1703.10593
KSRS
December 2024 Vol. 40, No.6, pp. 1005-989

Share

  • line

Korean Journal of Remote Sensing