Korean J. Remote Sens. 2025; 41(1): 53-64
Published online: February 28, 2025
https://doi.org/10.7780/kjrs.2025.41.1.5
© Korean Society of Remote Sensing
1국립부경대학교 데이터공학과 석사과정생
2국립부경대학교 데이터정보과학부 빅데이터융합전공 조교수
Correspondence to : Junhwa Chi
E-mail: jchi@pknu.ac.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Geostationary Ocean Color Imager-II (GOCI-II), an ocean color satellite sensor that continuously observes the seas and coasts around the Korean Peninsula, is widely used to analyze and study not only short-term changes in the ocean but also mid- to long-term changes in the marine environment. However, optical satellite observation has limitations in that missing values exist due to weather conditions such as clouds. These missing values are the biggest obstacle to continuously monitoring changes in the marine environment and predicting future trends. In this study, a robust missing value restoration model was developed to restore the missing values of GOCI-II chlorophyll-a concentration data. To achieve this, missing values were simulated by generating random clouds based on actual cloud shapes. During the restoration process, missing values were estimated based on the characteristics of pixels spatially adjacent to those where the missing data occurred. In addition, to effectively utilize the spatio-temporal features, which are a key advantage of GOCI-II images, a model combining a Convolutional Neural Network and a Bidirectional Long Short-Term Memory structure was proposed. The proposed model showed a coefficient of determination greater than 0.90 and a mean square error of approximately 0.25 mg/m3. These results were obtained by evaluating the stability and accuracy of the restored data based on cloud shapes and the ratio of missing values. This study demonstrates the potential for not only monitoring the marine environment but also predicting future changes by securing continuous spatio-temporal data through missing value restoration.
Keywords GOCI-II, Missing value restoration, Spatio-temporal features, Convolutional neural network, Long short-term memory
한반도 주변 해양과 연안을 상시 관측하는 해색 위성 센서인 Geostationary Ocean Color Imager-II (GOCI-II)는 해양의 단기적 변화뿐만 아니라 중장기적인 해양 환경 변화를 분석하고 연구하는 등 폭넓게 활용되고 있다. 그러나 광학 위성 관측에는 구름과 같은 기상 조건으로 인한 결측값이 존재하는 한계점을 가지고 있다. 이러한 결측값은 해양 환경 변화를 연속적으로 모니터링하고 그 변화를 예측하는 데 가장 큰 장애 요인이 된다. 본 연구에서는 한반도 주변 해역과 연안을 대상으로 GOCI-II 클로로필-a 농도 자료의 결측 영역을 복원하기 위해 강건한 결측값 복원 모델을 개발하였다. 이를 위해 실제 구름 형태를 기반으로 임의의 구름을 생성하여 결측값을 재현하였으며, 결측값 복원 과정에서는 결측이 발생한 픽셀과 시공간적으로 인접한 픽셀들의 특징을 기반으로 하여 결측값을 추정한다. 또한, GOCI-II 영상의 장점인 시공간적 특징을 효과적으로 활용하기 위해 Convolutional Neural Network와 Bidirectional Long Short-Term Memory 구조를 결합한 모델을 제안하였다. 제안된 모델은 구름의 형태와 결측값 비율 등에 따른 정확도와 복원된 결과의 안정성 비교 결과 0.90 이상의 결정계수와 약 0.25 mg/m3의 평균 제곱근 오차를 보였다. 본 연구를 통해 결측값을 복원하여 시공간적으로 연속적인 데이터를 확보 함으로써 해양 환경 모니터링뿐만 아니라 향후 변화 예측에도 활용될 수 있을 것으로 기대한다.
주요어 GOCI-II, 결측값 복원, 시공간적 특징, Convolutional neural network, Long short-term memory
해색 원격 탐사는 1960년대에 처음 도입된 이래 해양 연구 전반에 걸쳐 폭넓게 활용되고 있다. 한반도 주변 해양과 연안의 변화를 지속적으로 관측하는 천리안 2B호 위성에 탑재된 Geostationary Ocean Color Imager (GOCI)-II는 해양의 단기적 변동뿐만 아니라 중장기적인 변화 추세를 모니터링 하는 중요한 역할을 하고 있다. 특히, 해색 위성 센서에 의해 기록된 데이터로부터 추정되는 클로로필-a 농도(chlorophyll-a concentration)는 식물성 플랑크톤의 주요 색소로, 광합성을 통해 흡수하는 과정에서 바다의 색을 변화시킨다. 이를 통해 클로로필-a의 분포를 추정함으로써 해양의 일차 생산력 및 식물성 플랑크톤의 분포를 파악할 수 있다(Park et al., 2021).
전통적으로 해양의 일차 생산량은 선박을 통해 해수를 채취하고 분석하는 방식으로 측정해 왔으나, 이러한 수질 모니터링 방법은 시간과 비용이 많이 들며 넓은 지역의 장기적 변화를 지속적으로 관측하는 데 한계가 있다. 반면, 위성 관측은 광범위한 지역에서 주기적으로 데이터를 수집할 수 있어 해양 환경의 공간적·시간적 변동성을 이해하고 예측하는 데 활용된다. 2020년 2월에 발사된 GOCI-II는 세계 최초의 정지궤도 해색 관측 위성 센서인 GOCI의 임무를 이어받아 한반도 주변 해역을 250 m의 공간 해상도로 해양 환경 변화를 모니터링 한다. GOCI-II는 12개의 밴드를 활용해 하루에 최대 10회에 걸 쳐 해색 자료를 수집 함으로써 단기적인 해양 환경 변동뿐만 아니라, 장기적인 변화 추세를 모니터링하는 데 중요한 역할을 수행하고 있다(Lee et al., 2023a).
그럼에도 불구하고 해색 관측에서 직면하는 큰 문제점 중 하나는 구름, 기상 상황, 그림자 등으로 인해 발생하는 결측값이다(Hwang et al., 2021). 광학 위성 관측의 특성상, 구름과 안개 같은 기상 조건으로 인해 관측이 제한되는 지역이 발생하며, 전 세계적으로 약 66%의 지역이 구름으로 덮여 있어(Mao et al., 2019), 장기적인 해양 환경 분석에 제약이 따른다. 특히, 한반도 주변 해역은 사계절이 뚜렷한 기후적 특성으로 인해 다양한 형태의 구름이 빈번하게 발생하며, 여름철 장마 기간에는 구름의 영향을 더욱 크게 받고 있다(Seo et al., 2023). 이러한 기상 조건으로 인해 한반도 해역에서 관측되는 클로로필-a 농도 자료에 결측값이 빈번히 발생하며, 이는 해양 환경 변동을 지속적으로 모니터링하고 분석하는 데 어려움을 초래한다. 이러한 문제는 GOCI-II 해색 위성 센서에서도 발생한다.
GOCI-II는 높은 시간 해상도(10회/일)의 정보를 제공하지만 시공간적으로 불균일하게 발생하는 결측값으로 인해 자료의 신뢰도가 저하되고 연속적인 시공간 분석에 한계가 있다. 이러한 결측 문제로 인해 GOCI-II의 일별 데이터는 주별 또는 월별 자료로 합성되어 활용하는 경우가 많다(Sung et al., 2021). 하지만 해양 환경 요소인 풍속, 풍향, 강수량, 조류 등은 짧은 시간 내에 급격히 변할 수 있으며, 이에 따라 클로로필-a와 같은 해양 생물학적 인자도 하루 또는 몇 시간 내에 빠르게 변화할 수 있다(Han et al., 2018). 이러한 특성으로 인해 일별 데이터 복원의 중요성이 지속적으로 제기되고 있다(Cole et al, 2012). 해수면 온도(Huang et al., 2021; Baker et al., 2023), 육지 표면온도(Sarafanov et al., 2020)와 같은 물리적 환경 변수는 공간적·시간적 변동성이 비교적 적어 이에 대한 결측값 보간 연구는 활발하게 이루어져 왔다. 이에 반해, 클로로필-a와 같은 해양 생물학적 지표는 해류에 의한 이동(물리적 요인)과 동물성 플랑크톤의 섭식(생물학적 요인) 간의 복잡한 상호작용으로 인해 시간에 따라 공간적 변동성이 크다(Stock et al., 2020). 이러한 복잡성은 데이터를 예측하거나 보간하는 과정을 더욱 어렵게 만들어 해양 생물학적 지표를 대상으로 한 결측값 보간 연구가 상대적으로 미비한 실정이다.
Zhang et al. (2017)의 연구에서는 Long Short-TermMemory (LSTM) 네트워크를 사용해 해수면 온도를 예측한 바가 있으나, 이는 시간적으로 이웃한 데이터에 의존하고 공간적 맥락을 반영하지 않으며, 과거 15일의 연속 데이터가 있어야 해서 다수의 결측일이 연속적으로 존재하는 경우에는 적용이 어렵다는 한계가 있었다. 또한 Convolutional Neural Network (CNN)는 이미지 처리 분야에서 활발히 활용되고 있으며, 구름으로 인한 결측값 보간 연구(Chen et al., 2019; Cresson et al., 2019; Zhang et al., 2018)에도 적용되고 있다. 하지만 CNN기반 모델은 입력 데이터의 모든 픽셀이 유효해야 하므로, 누락된 데이터에 고정된 초기값을 할당하는 ‘홀 초기화’방법이나 인접 픽셀 값을 사용한 보간과 같은 전처리 단계가 필요하다. 그러나 이러한 전처리 단계는 결측 영역이 넓을수록 왜곡된 결과를 초래 할 수 있다. 위성 영상을 이용한 결측값 복원 기법은 크게 시계열 기반 방법과 공간 기반 방법이 있다(Weiss et al., 2014). 시계열 기반 방법은 선형 보간이나 푸리에 변환을 통해 특정 시점의 결측값을 복원하지만, 주변의 공간적 맥락은 고려하지 않는다는 한계가 있다. 반면, 공간 기반 방법에는 크리깅(kriging), 스플라인(spline), 역거리 가중 보간 등이 있으며, 결측 위치 주변의 관측값을 활용하여 결측 자료를 복원하지만, 시간적 정보를 이용하지 않는다. Jeon and Cho (2022)의 연구에서는 공간 기반 통계 기법인 크리깅을 활용하여 클로로필-a 결측값을 보간하였다. 그러나 크리깅은 시간적 변동성을 반영하지 못하고, 공간적 패턴이 급격히 변하는 지역에서는 정확한 복원이 어렵다. 또한, 넓은 영역을 처리할 때 높은 연산 비용이 요구되는 한계가 있다(Lops et al., 2021).
본 연구에서는 250 m의 높은 공간 해상도와 하루 최대 10회에 이르는 높은 시간 해상도를 가진 GOCI-II 해색 위성 센서로부터 산출된 클로로필-a 농도 자료의 결측값을 복원하기 위해 시공간적 특징을 활용한 결측값 보간 모델을 제안한다. 특히 결측값을 보간 할 날을 기준으로 시공간적으로 인접한 픽셀에 대해 CNN을 통해 각 날짜의 특징을 추출하고, Bidirectional Long Short-TermMemory (BiLSTM)을 통해 시간적 연속성을 반영하여 과거와 미래의 정보를 동시에 고려한 결측값 추정 모델 ConvBiLSTM을 개발한다.
ConvBiLSTM은 구름 밀집 정도와 결측 비율에 따른 정량적 성능(Root Mean Squared Error [RMSE], Mean Absolute Error [MAE], R squard [R2])과 정성적 복원 결과를 통해 성능을 검증하였으며, 해역 특성이 상이한 세 구역에서 실제 구름 영역의 결측값 보간 성능 검증을 수행하였다. 따라서 본 연구는 GOCI-II의 높은 시간 해상도를 활용하여 일별 결측 자료를 복원함으로써, 해양 환경 변화의 시계열적 분석과 중장기 예측 모델 연구에 기여할 수 있을 것으로 기대한다.
천리안 2B호 위성에 탑재된GOCI-II 해색 센서는 한반도를 중심으로 2,500 × 2,500 km 영역을 총 12개의 슬롯(slot)으로 나누어 관측한다. 한국 표준시(KST) 기준 8:15부터 17:15까지 1시간 간격으로 하루에 10회 관측을 수행하며, 이외에도 하루 한 번 반구(Full Disk)를 관측하여 자료를 생산한다. GOCI-II는 250 m의 공간 해상도를 가지며, 380–865 nm의 파장 범위에서 자외선부터 근적외선까지 12개의 밴드를 제공한다(Lee et al., 2023b). 본 연구에서는 GOCI-II 해색 센서의 관측 범위 중 슬롯 7(30° 39′ 55.44”N–39° 17′ 8.268″N, 121° 59′ 47.292″E–130° 24′ 19.368″E)에 해당하는 영역을 연구 지역으로 설정하였다. 연구 지역은 한반도, 황해, 동중국해를 포함하고 있으며, 부유 퇴적물 농도와 클로로필-a 농도, 유색 용존 유기물 등의 해양 광학적 특성이 시간 및 공간에 따라 활발히 변동하는 동적 해양 광학 특성을 가진다(Eom et al., 2017). Fig. 1은 연구 지역인 슬롯 7의 위치와 범위를 나타낸다. 본 연구에 사용된 클로로필-a 농도 데이터는 2023년 1월 1일부터 12월 31일까지의 자료로, GOCI Data Processing System (GDPS) v.2.0을 통해 처리된 L2 영상이다. 해당 자료는 국립해양조사원 국가해양위성센터(https://www.nosc.go.kr/)에서 제공된다.
Fig. 2는 본 연구의 클로로필-a 농도 데이터 결측값 보간 절차를 나타낸 흐름도로, 연구 과정은 데이터 전처리, 모델 학습 및 복원, 정확도 평가 단계로 구성된다. 데이터 전처리 단계에서는 구름 영역 마스킹, 이상치 제거, 일합성(daily averaging)을 통해 365개의 일별 합성 이미지를 생성한 뒤, 이를 128 × 128 블록(block)으로 분할하였다. 이는 구름으로 인한 미탐지 해역을 최소화하고, 모델 학습에 적합한 데이터 세트를 구성하기 위함이다. 이후, 연속된 7일동안 결측 비율이 20% 미만인 블록만을 선별하여, 구름 밀집도와 결측 픽셀 비율을 반영한 임의의 구름 마스크를 적용하여 모델 학습에 활용할 데이터를 구성하였다. 모델 학습 단계에서는 시간적·공간적으로 인접한 데이터를 활용하여 CNN과 BiLSTM을 결합한 모델을 통해 결측값 복원이 수행되었다. 모델 평가 단계에서는 테스트 데이터에 구름 마스크를 적용하여 결측 영역을 생성한 후, 복원된 결과를 참조 데이터와 비교하여 정량적 및 정성적 평가를 통해 성능을 검증하였다.
본 연구에서 사용된 클로로필-a 농도 자료는 픽셀별 flag 정보와 함께 Network Common Data Form (NetCDF) 형식으로 제공되며, flag 정보는 구름, 육지, 대기 보정 실패, 알고리즘 처리 실패와 같은 오차 정보를 구분한다(Lee et al., 2021). GOCI-II의 클로로필-a 데이터에서 각 픽셀은 구름/얼음(flag 1: Cloud_or_Ice), 육지(flag 2: Land), 대기 보정 실패(flag 3: AC_Fail), 엽록소 농도 계산 실패(flag 4: Chl-a_Fail)로 숫자 flag가 부여되어, 본 연구에서는 해당 flag를 가진 클로로필-a 픽셀을 분석에서 제외하여 1차적으로 이상값을 제거하였다. 그러나 구름 경계 부분과 같은 특정 영역에서는 flag만으로는 제거되지 않는 이상값이 여전히 발생하는 것을 확인하였다. 이러한 이상값, 즉 스펙클은 얇은 구름이나 구름에 인접한 고고도 에어로졸의 영향으로 인해 주로 발생하며, 특히 구름 가장자리에서 두드러진다. GOCI-II에서 발생하는 스펙클은 밴드별 위치 등록 과정에서의 오차로 인해 발생할 수 있다. 위성 센서가 여러 밴드의 영상을 획득하기 위해 사용하는 필터 휠은 밴드 간 전환을 위해 회전 및 안정화 시간이 필요하며,이 과정에서 관측 대상이 이동할 경우 밴드 간 화소 위치가 어긋나는 위치 오차가 발생할 수 있다. 이러한 오차는 대기 보정 과정에서 밴드 간 값의 불일치를 발생시키며, 결과적으로 스펙클과 같은 이상치를 발생시킨다. 특히 GOCI-I보다 공간 해상도가 높은 GOCI-II에서 그 영향이 더욱 두드러진다(Park et al., 2013).
이러한 문제를 해결하기 위해 본 연구에서는 flag 기반의 이상값 제거 외에도 추가적인 스펙클 이상값 제거 과정을 수행하였다. 각 구역 내에서 한 달 동안 매일 매시간 수집된 데이터를 기반으로 월별 이상치 경계를 설정하였다. Fig. 3은 2023년 10월 2일에 획득된 클로로필-a 농도 데이터에서 스펙클 제거 전후 결과를 보여주는 예시이다. Figs. 3(a–d)에서는 스펙클 제거 전의 클로로필-a 데이터를, Figs. 3(e–h)는 스펙클 제거 후 결과를 나타낸다. 클로로필-a 농도는 계절별로 큰 변동을 보이므로 월별 데이터의 분포를 고려하여 이상치 기준을 설정했다. 이 과정에서는 사분위수 범위(Inter Quartile Range, IQR)를 기반으로 한 임계값을 적용하여 이상치를 식별 및 제거함으로써 구름 경계 부분에서 발생할 수 있는 오탐지를 최소화하였다. 이후, 시간 단위로 수집된 클로로필-a 데이터를 단순 산술 평균하여 일일 합성 클로로필-a 데이터를 생성하였다.
본 연구에서는 결측값 보간 과정에서 구름의 밀집 정도가 중요한 영향을 미친다는 점에 착안하여(Dong et al., 2024), 이를 정량적으로 표현하기 위해 구름 밀집도 지표(Cloud Density Index, CDI)를 제안하였다. CDI는 구름이 넓게 분산된 상태일수록 낮은 값을, 고밀도로 집중된 상태일수록 높은 값을 갖도록 수치화한 지표로, Gaussian Random Field (GRF)를 기반으로 구름의 크기와 밀집도를 정량적으로 조절하여 다양한 구름 밀집 패턴을 형성하였다. GRF는 공분산 함수를 기반으로 공간 내 모든 점 간의 상관성을 계산해 구름의 확산 정도를 정량적으로 조절 할 수 있으며, 이를 식(1)과 같이 정의하였다.
여기서 s와 s′은 공간상의 좌표를 나타내며, || s – s′ ||2은 두 좌표 간의 유클리드(Euclid) 거리이다. GRF의 분산 σ2=0.95로 설정하였으며, CDI는 공간적 상관성의 범위를 조절하여 구름의 크기와 밀집도를 결정한다. 결측 픽셀 비율은 특정 임계값(Missing Pixel Ratio, MPR)을 통해 조절되며, CDI와MPR을 조합하여 다양한 결측 조건을 반영한 데이터를 구성하였다.
이를 통해 실제 관측 환경과 유사한 구름 패턴을 생성하여 모델의 학습과 성능 평가에 활용하였다. 본 연구에서는 연속된 7일 동안 결측 비율이 20% 미만인 클로로필-a 데이터를 기반으로, CDI 값을 50, 100, 400으로 MPR 값을 10%, 20%, 30%로 조합하여 다양한 구름 밀집도와 결측 비율을 반영한 훈련 및 테스트 데이터를 구성하였다. 이러한 데이터 구성 방식을 통해 결측값에 대한 실제 값을 알 수 있으므로 모델의 학습 및 성능 평가가 가능하도록 하였다. Fig. 4는 CDI와 MPR에 따라 생성된 결측값 패턴의 예시를 보여준다. 열은 MPR을, 행은 CDI 값에 따른 구름 밀집 형태를 나타낸다. CDI와MPR의 조합으로 다양한 구름 조건을 반영한 데이터를 구성하여 각 구름 유형에서 모델의 결측값 보간 성능을 평가하고, 이를 통해 모델이 다양한 구름 조건에서 결측값을 효과적으로 보간할 수 있는지 확인하였다.
본 연구에서는 결측값 보간을 위해 시간적·공간적으로 인접한 픽셀을 활용하여 결측 픽셀 값을 순차적으로 추정하는 접근 방식을 제안하였다. 이러한 접근 방식은 결측 픽셀 주변의 시공간적으로 인접한 데이터 간에 높은 상호 연관성이 존재한다는 가정에 기반하며, 인접한 시점과 위치의 픽셀 데이터를 활용하여 결측값을 추정하는 것이다. 전체 이미지를 대상으로 한 접근 방식을 고려하기도 하였으나, 본 연구는 시공간적 특징을 가진 픽셀을 활용하는 방식을 통해 다양한 형태와 해상도를 가진 데이터에도 유연하게 적용할 수 있는 장점이 있다. 결측값 보간 과정에서는 결측을 채울 특정 날짜(t)를 포함하여 전후 3일(t –3, t -2, t –1, t +1, t +2, t +3) 동안의 데이터를 활용하였다.
Fig. 5에서 빨간 점은 결측을 보간할 대상 픽셀을 나타내며, 원은 대상 픽셀을 중심으로 인접 픽셀을 선택하는 반경을 나타낸다. 각 날짜 별로 해당 픽셀에 가장 인접한 100개의 픽셀이 경위도 좌표에서 유클리드 거리를 기준으로 추출되며, 총 700개의 특징 벡터를 구성하였다. 이러한 인접 픽셀은 식(2)를 통해 계산된 유클리드 거리를 기준으로 선택된다. 여기서 D는 결측 픽셀과 인접 픽셀 간의 유클리드 거리이며, (xc, yc)는 결측 픽셀의 좌표, (xn, yn)은 이웃 픽셀의 좌표를 의미한다.
시공간적 관계성을 반영하여 구성한 700개의 인접 픽셀 데이터를 기반으로, 결측 클로로필-a 값을 예측하기 위해 CNN과 BiLSTM 네트워크를 결합한 결측값 보간 모델(ConvBiLSTM)을 개발하였다. Fig. 6은 제안된 ConvBiLSTM모델의 전체 아키텍처를 보여준다. 입력 데이터는 결측값을 보간하려는 특정 시점을 기준으로 전후 3일의 인접 데이터를 포함하고 있으며, ConvBiLSTM 모델에서는 Time Distributed Layer를 활용하여 각 시간 단계마다 동일한 합성곱 레이어를 적용함으로써 각 날짜별 독립적인 특징을 추출한다. CNN을 통해 추출된 시점별 특징들은 BiLSTM의 입력으로 전달되며, BiLSTM은 LSTM과 달리 데이터 시퀀스를 순방향과 역방향으로 모두 학습하여 과거와 미래의 패턴을 동시에 반영한다.
결측값 보간 모델은 TensorFlow 프레임워크를 기반으로 개발되었으며, NVIDIAGeForce RTX 4090 그래픽 처리장치를 활용하여 학습 및 테스트가 수행 되었다. ConvBiLSTM모델의 구조는 CNN 층 2개와 BiLSTM 층 2개로 구성되었으며, CNN 층에서는 ReLU 활성화 함수를 사용하여 비선형성을 반영하였다. BiLSTM 층은 첫 번째 층에서 128개의 노드(node), 두 번째 층에서 64개의 노드를 사용하였으며, 학습 중 과적합을 방지하기 위해 30%의 드롭아웃(dropout)을 적용하였다. 모델 훈련에는 총 5,718 세트의 훈련 데이터가 사용되었으며, 이 중 60%를 학습 데이터로, 나머지 40%를 검증 데이터로 사용하였다. 손실 함수로는Mean Squared Error (MSE)를 사용 하였다. 최적화 알고리즘은 학습률 10-4로 설정하여 AdamOptimizer를 사용하였으며, 배치 크기는 256으로, 총 200회의 반복 학습을 진행하였다. 이를 통해 ConvBiLSTM모델은 시·공간적 연속성을 반영하여 특정 날짜의 결측 클로로필-a 값을 예측하며, 인접한 날짜의 정보를 기반으로 중간 날짜의 결측값을 추정하는 경향성을 학습하게 된다.
본 연구에서는 결측값 복원 모델의 성능을 검증하기 위해 임의의 구름 데이터와 실제 구름 데이터를 활용하였다. 임의의 구름 데이터 검증에서는 CDI와MPR을 반영하여 다양한 구름 패턴을 생성한 후, 각 구름 유형에 대해 모델의 복원 성능을 정량적·정성적으로 평가하였다. 실제 구름 데이터 검증에서는 GOCI-II의 2023년 클로로필-a 데이터에서 관측된 구름 영역을 추출한 뒤, MPR을 10–30%, 30–50%, 50–70% 구간으로 나누어 구름 마스크를 생성하였다. 생성된 구름 마스크는 Fig. 7에 제시된 상이한 해양적 특성을 갖는 Region 1, Region 2, Region 3 세 구역의 테스트 데이터에 적용하여 실제 구름 조건에서의 모델 복원 성능을 평가하였다.
Table 1은 훈련에 사용되지 않은 구역에서 생성된 총 270개의 결측 데이터 세트를 기반으로, 각 결측 픽셀 비율과 CDI의 조합에 따른 모델의 복원 성능 지표(RMSE, MAE, R2)를 나타낸다. 각 CDI와 MPR 조합에 대해 30개의 세트를 대상으로 평가를 수행했으며, 이를 통해 모델이 다양한 구름 밀집 형태에서도 안정적인 결측값 복원 성능을 유지하는지를 평가하였다. Table 1에서 볼 수 있듯이 동일한MPR을 적용하더라도 구름 밀집도가 낮을수록 결측값 복원이 더 효과적으로 이루어지는 경향이 나타났다. 이는 구름이 넓게 분산된 형태일수록 인접한 픽셀 정보를 복원에 활용하기에 용이하여 복원 성능이 향상됨을 의미한다. 반면, 고밀도 구름 영역에서는 결측 픽셀과 인접한 유효한 데이터가 부족하여 복원에 필요한 정보가 제한되어 복원 성능이 상대적으로 저하되는 경향을 보였다.
Table 1 Statistical performance based on simulated cloud patterns and missing pixel ratios (Units for MAE and RMSE: mg/m3)
MPR | CDI | MAE (Std. Dev.) | RMSE (Std. Dev.) | R2 (Std. Dev.) |
---|---|---|---|---|
10% | 50 | 0.0077 (0.0054) | 0.0151 (0.0141) | 0.9119 (0.1612) |
100 | 0.0105 (0.0072) | 0.0212 (0.0165) | 0.9104 (0.1245) | |
400 | 0.0114 (0.0082) | 0.0227 (0.0169) | 0.9041 (0.1160) | |
20% | 50 | 0.0097 (0.0053) | 0.0187 (0.0121) | 0.9453 (0.0915) |
100 | 0.0101 (0.0059) | 0.0195 (0.0117) | 0.9024 (0.1630) | |
400 | 0.0103 (0.0074) | 0.0193 (0.0135) | 0.9108 (0.1061) | |
30% | 50 | 0.0098 (0.0056) | 0.0197 (0.0139) | 0.9294 (0.0928) |
100 | 0.0115 (0.0071) | 0.0213 (0.0131) | 0.9122 (0.1234) | |
400 | 0.0111 (0.0076) | 0.0201 (0.0145) | 0.9262 (0.0933) |
Std. Dev.: standard deviation.
각 지표의 분산은 구름 밀집도가 낮은 경우 비교적 낮게 나타나 복원 성능이 데이터 세트 간에 안정적으로 유지되는 경향을 보였다. 반면, 고밀도 구름 영역에서는 분산 값이 증가하면서 복원 성능의 변동성이 더 크게 나타났다. 이는 연구에서 유클리드 거리를 기반으로 인접 픽셀을 선택하였음에도, 고밀도 구름 영역에서는 유효한 인접 픽셀이 충분하지 않아 복원 성능이 저하될 수 있음을 시사한다. 결론적으로, 결측 픽셀 비율보다 구름 밀집도가 복원 성능에 더 중요한 요인으로 작용하며, 고밀도의 구름 영역에서는 결측값 복원이 상대적으로 어려움을 알 수 있다.
본 절에서는 Fig. 7에 제시된 세 구역(Region 1, Region 2, Region 3)을 대상으로 실제 구름 영역을 적용한 결측값 복원 결과를 분석하였다. 2023년 GOCI-II 클로로필-a 데이터에서 추출된 구름 영역을 기반으로 MPR을 10–30%, 30–50%, 50–70% 구간으로 나누어 구름 마스크를 생성하여 테스트 데이터에 적용하였다. 각 구역의 데이터는 Region 1 (2023년 8월 5일), Region 2 (8월 4일), Region 3 (8월 2일)에 해당하며, 결측 비율에 따른 복원 성능을 정량적·정성적 평가를 수행하였다.
Region 1은 한반도 남서쪽에 위치하며, 중국 황해와 양쯔강 하구로부터 영향을 받는 지역이다. 양쯔강 및 중국 하천수의 유입으로 형성된 연안수가 한반도 남서 해역까지 확장되며, 해당 해역은 높은 클로로필-a 농도를 나타내는 특징이 있다(Oh and Suh, 2006). Region 2는 한반도 남해안과 대한해협 부근으로, 맑은 해역부터 탁한 해역까지 폭 넓은 해수 환경이 공존하는 지역이다. 복잡한 해안선 구조를 가진 남해안은 해역에 따라 상이한 해수 환경을 나타내며, 외해역은 쿠로시오 해류의 영향으로 비교적 맑은 해수의 특징을 가진다. 이러한 영향으로 인해 해당 해역의 클로로필-a 농도는 대체로 낮은 특성을 보인다(Shin et al., 2020). Region 3은 황해 북부와 서해 북쪽의 중국 연안과 인접한 해역으로, 중국 연안 해역에서 유입되는 부유 물질과 영양 염류의 영향을 받는다. 해당 해역은 계절적 요인에 따라 클로로필-a 농도가 크게 변동하며, 중국 연안수의 유입과 혼합으로 인해 중간 수준의 클로로필-a 농도를 보인다(Son et al., 2012).
Figs. 8, 9, 10은 각각 Region 1, Region 2, Region 3에서 실제 구름 조건에서의 결측값 복원 결과를 정성적 및 통계적으로 나타낸 것이다. 첫 번째 열은 실제 클로로필-a 값(ground truth), 두 번째 열은 구름에 의해 결측값이 추가된 이미지를, 세 번째 열은 복원된 값을, 마지막 열은 복원된 값과 실제 값 간의 통계적 비교를 통해 복원 정확도를 평가하였다. MPR이 증가함에 따라 복원 성능의 통계적 지표인 MAE와 RMSE 값이 높아지고 R2 값은 다소 감소하는 경향을 보였다. Region 1에서 MPR이 28%일 때 R2 값은 0.9282로 나타났으나, MPR이 64%로 증가할 때 R2 값이 0.8399로 감소하였다. 이는 구름이 고밀도로 밀집된 구역에서 인접 데이터의 부족으로 인해 복원 정확도가 상대적으로 낮아질 수 있음을 의미한다. 이와 같은 경향은 Region 3에서도 유사하게 나타났다. Region 2에서는MPR이 24%에서 R2 값이 0.9228이었으나, MPR이 66%로 증가할 때 R2 값이 0.9567로 소폭 상승하였다.
이는 해당 구역의 구름 밀집도가 비교적 낮아 인접 픽셀의 정보를 효과적으로 활용할 수 있었기 때문으로 해석된다. 반면, Region 3에 서는MPR이 44%에서 R2 값이 0.9652 였지만, MPR이 65%로 증가하면서 R2 값이 0.8554로 감소하였다. 이는 Region 3의 65% 구름 패턴이 높은 밀집도로 인해, 인접 픽셀의 활용이 제한되어 복원 성능이 저하된 것으로 분석된다. 이러한 결과는 본 연구의 3.1절에서 논의한 구름 밀집도와 결측 비율에 따른 복원 성능 분석과 일관성을 가지며, 고밀도 구름 영역에서 복원 정확도가 낮아질 가능성을 시사한다. 또한 결측값이 보간된 이미지의 경계 영역에서 자연스럽게 연결되지 않는 부분이 관찰되었으며, 이는 고밀도 구름 영역에서 인접 데이터가 부족하여 복원 성능이 저하된 결과로 해석된다.
Table 2는 실제 구름 데이터를 기반으로 각 결측 비율 구간에서 복원 성능을 정량적으로 평가한 결과를 제시한다. 각MPR 구간별로 20개 데이터 세트를 대상으로MAE, RMSE, R2의 평균과 표준편차를 계산하여 복원 성능을 수치적으로 분석하였다. 분석 결과, MPR이 증가함에 따라MAE와 RMSE 값이 증가하고 R2 값은 감소하는 경향이 뚜렷하게 나타났다. 이는 구름이 고밀도로 분포된 경우 유효한 인접 데이터를 확보하기 어려워짐에 따라 복원 성능이 저하된다는 것을 정량적으로 뒷받침해 준다. 이러한 결과는 정성적 평가와도 일관되며, 고밀도 구름 영역에서의 결측값 보간의 어려움을 보여준다. 더불어 각 MPR 구간에서 표준편차는 안정적으로 유지되었으며 이는 실제 구름 영역에서 복원 성능의 변동성이 크지 않음을 시사한다.
Table 2 Overall statistical performance based on real cloud patterns (Units for MAE and RMSE: mg/m3)
MPR | RMSE (Std. Dev.) | MAE (Std. Dev.) | R2 (Std. Dev.) |
---|---|---|---|
10–30% | 0.0860 (0.0683) | 0.0612 (0.0491) | 0.9189 (0.0892) |
30–50% | 0.1021 (0.0725) | 0.1058 (0.0536) | 0.8732 (0.0664) |
50–70% | 0.1587 (0.0905) | 0.1189 (0.0527) | 0.8226 (0.1248) |
Std. Dev.: Standard Deviation.
GOCI-II 해색 위성 센서는 높은 시간 해상도로 해양 환경의 단기 및 중장기 변화를 모니터링하는 데 유용하게 활용되고 있으나, 구름과 기상 조건으로 인해 빈번히 발생하는 결측값이 자료의 연속성을 저해하는 한계가 있다. 이러한 결측 문제를 보완하기 위해 8일 또는 1개월 단위의 합성 자료가 주로 사용되지만, 이러한 자료에서도 여전히 결측값이 남아 있어 연속적인 데이터 확보에 한계가 있다(Park et al., 2022a; 2022b). 본 연구에서는 GOCI-II 해색 위성 센서로부터 수집된 일별 클로로필-a 농도 자료에서 발생하는 결측값을 보간하기 위해 시공간적 특징을 학습하는 ConvBiLSTM모델을 제안하고, 그 결과를 정량적 및 정성적으로 평가하였다. 결측이 발생한 날짜의 전후 3일 동안 각 날짜에 대해 결측 픽셀과 가장 인접한 데이터를 유클리드 거리를 기준으로 추출하여 시공간적 특징을 입력 데이터로 구성하였다. 제안된 모델은 Time Distributed Layer를 통해 CNN에서 각 날짜의 특징을 독립적으로 추출한 후, BiLSTM으로 전달되어 과거와 미래의 시점 정보를 동시에 학습함으로써 결측값 복원 과정에서 시공간적 연속성을 반영하였다. 또한, 구름의 밀집 정도를 정량적으로 표현하기 위해 CDI를 활용하고, CDI와 MPR을 결합하여 다양한 구름 패턴을 생성하고 보간 성능을 평가하였다. 결과적으로, ConvBiLSTM은 다양한 구름 조건과 결측 비율에서도 효과적으로 결측값을 보간 할 수 있음을 확인하였다. 실제 구름 영역을 대상으로 한 실험에서도 일관된 성능을 보여주어 GOCI-II 자료에서 일별 데이터를 보다 신뢰성 있게 활용할 수 있는 가능성을 제시하였다. 다만, 복원된 데이터에서는 결측을 채운 부분과의 경계에서 어색한 연결이 발생하는 한계가 관찰되었으며 이는 향후 개선이 필요한 부분이다.
향후 연구에서는 본 연구에서 사용한 7일간의 데이터를 개별적으로 처리하여 결측값을 복원하는 방식을 개선하여, 연속된 시계열 데이터를 3차원으로 구성하여 3차원 컨볼루션을 적용함으로써 연속된 날의 시공간적 패턴을 동시에 학습하며 결측값을 복원하여 성능을 더욱 향상시키고자 한다. 또한, 복원된 데이터의 경계 부분에서도 자연스러운 연결이 가능하도록 손실 함수를 개선함으로써, 보다 연속적이고 높은 정밀도의 결측값 복원을 수행하여 일별 데이터를 생성하고자 한다. 특정 날짜의 데이터를 복원하는 데 그치지 않고 특정 구역에서 시간적으로 연속된 복원한 결과를 기반으로 시계열적 연속성이 얼마나 잘 유지되는지를 평가하고자 한다. 이어서 계절별 구름 특성으로 인한 데이터 복원 성능의 차이를 정량적으로 분석하여 계절적 요인이 복원 정확도에 미치는 영향을 분석하고자 한다. 더불어 결측 픽셀과 유효한 픽셀을 구분하는 마스크를 활용하여 유효한 픽셀 정보를 기반으로 결측 영역을 단계적으로 복원하고 구름이 밀집된 지역에서도 유효한 정보를 점진적으로 반영함으로써 복원 정확도를 높이고자 한다.
이 논문은 국립부경대학교 자율창의학술연구비(2023년)에 의하여 연구되었습니다.
No potential conflict of interest relevant to this article was reported.
Korean J. Remote Sens. 2025; 41(1): 53-64
Published online February 28, 2025 https://doi.org/10.7780/kjrs.2025.41.1.5
Copyright © Korean Society of Remote Sensing.
1국립부경대학교 데이터공학과 석사과정생
2국립부경대학교 데이터정보과학부 빅데이터융합전공 조교수
1Master Student, Department of Data Engineering, Pukyong National University, Busan, Republic of Korea
2Assistant Professor, Major of Big Data Convergence, Division of Data Information Sciences, Pukyong National University, Busan, Republic of Korea
Correspondence to:Junhwa Chi
E-mail: jchi@pknu.ac.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Geostationary Ocean Color Imager-II (GOCI-II), an ocean color satellite sensor that continuously observes the seas and coasts around the Korean Peninsula, is widely used to analyze and study not only short-term changes in the ocean but also mid- to long-term changes in the marine environment. However, optical satellite observation has limitations in that missing values exist due to weather conditions such as clouds. These missing values are the biggest obstacle to continuously monitoring changes in the marine environment and predicting future trends. In this study, a robust missing value restoration model was developed to restore the missing values of GOCI-II chlorophyll-a concentration data. To achieve this, missing values were simulated by generating random clouds based on actual cloud shapes. During the restoration process, missing values were estimated based on the characteristics of pixels spatially adjacent to those where the missing data occurred. In addition, to effectively utilize the spatio-temporal features, which are a key advantage of GOCI-II images, a model combining a Convolutional Neural Network and a Bidirectional Long Short-Term Memory structure was proposed. The proposed model showed a coefficient of determination greater than 0.90 and a mean square error of approximately 0.25 mg/m3. These results were obtained by evaluating the stability and accuracy of the restored data based on cloud shapes and the ratio of missing values. This study demonstrates the potential for not only monitoring the marine environment but also predicting future changes by securing continuous spatio-temporal data through missing value restoration.
Keywords: GOCI-II, Missing value restoration, Spatio-temporal features, Convolutional neural network, Long short-term memory
한반도 주변 해양과 연안을 상시 관측하는 해색 위성 센서인 Geostationary Ocean Color Imager-II (GOCI-II)는 해양의 단기적 변화뿐만 아니라 중장기적인 해양 환경 변화를 분석하고 연구하는 등 폭넓게 활용되고 있다. 그러나 광학 위성 관측에는 구름과 같은 기상 조건으로 인한 결측값이 존재하는 한계점을 가지고 있다. 이러한 결측값은 해양 환경 변화를 연속적으로 모니터링하고 그 변화를 예측하는 데 가장 큰 장애 요인이 된다. 본 연구에서는 한반도 주변 해역과 연안을 대상으로 GOCI-II 클로로필-a 농도 자료의 결측 영역을 복원하기 위해 강건한 결측값 복원 모델을 개발하였다. 이를 위해 실제 구름 형태를 기반으로 임의의 구름을 생성하여 결측값을 재현하였으며, 결측값 복원 과정에서는 결측이 발생한 픽셀과 시공간적으로 인접한 픽셀들의 특징을 기반으로 하여 결측값을 추정한다. 또한, GOCI-II 영상의 장점인 시공간적 특징을 효과적으로 활용하기 위해 Convolutional Neural Network와 Bidirectional Long Short-Term Memory 구조를 결합한 모델을 제안하였다. 제안된 모델은 구름의 형태와 결측값 비율 등에 따른 정확도와 복원된 결과의 안정성 비교 결과 0.90 이상의 결정계수와 약 0.25 mg/m3의 평균 제곱근 오차를 보였다. 본 연구를 통해 결측값을 복원하여 시공간적으로 연속적인 데이터를 확보 함으로써 해양 환경 모니터링뿐만 아니라 향후 변화 예측에도 활용될 수 있을 것으로 기대한다.
주요어: GOCI-II, 결측값 복원, 시공간적 특징, Convolutional neural network, Long short-term memory
해색 원격 탐사는 1960년대에 처음 도입된 이래 해양 연구 전반에 걸쳐 폭넓게 활용되고 있다. 한반도 주변 해양과 연안의 변화를 지속적으로 관측하는 천리안 2B호 위성에 탑재된 Geostationary Ocean Color Imager (GOCI)-II는 해양의 단기적 변동뿐만 아니라 중장기적인 변화 추세를 모니터링 하는 중요한 역할을 하고 있다. 특히, 해색 위성 센서에 의해 기록된 데이터로부터 추정되는 클로로필-a 농도(chlorophyll-a concentration)는 식물성 플랑크톤의 주요 색소로, 광합성을 통해 흡수하는 과정에서 바다의 색을 변화시킨다. 이를 통해 클로로필-a의 분포를 추정함으로써 해양의 일차 생산력 및 식물성 플랑크톤의 분포를 파악할 수 있다(Park et al., 2021).
전통적으로 해양의 일차 생산량은 선박을 통해 해수를 채취하고 분석하는 방식으로 측정해 왔으나, 이러한 수질 모니터링 방법은 시간과 비용이 많이 들며 넓은 지역의 장기적 변화를 지속적으로 관측하는 데 한계가 있다. 반면, 위성 관측은 광범위한 지역에서 주기적으로 데이터를 수집할 수 있어 해양 환경의 공간적·시간적 변동성을 이해하고 예측하는 데 활용된다. 2020년 2월에 발사된 GOCI-II는 세계 최초의 정지궤도 해색 관측 위성 센서인 GOCI의 임무를 이어받아 한반도 주변 해역을 250 m의 공간 해상도로 해양 환경 변화를 모니터링 한다. GOCI-II는 12개의 밴드를 활용해 하루에 최대 10회에 걸 쳐 해색 자료를 수집 함으로써 단기적인 해양 환경 변동뿐만 아니라, 장기적인 변화 추세를 모니터링하는 데 중요한 역할을 수행하고 있다(Lee et al., 2023a).
그럼에도 불구하고 해색 관측에서 직면하는 큰 문제점 중 하나는 구름, 기상 상황, 그림자 등으로 인해 발생하는 결측값이다(Hwang et al., 2021). 광학 위성 관측의 특성상, 구름과 안개 같은 기상 조건으로 인해 관측이 제한되는 지역이 발생하며, 전 세계적으로 약 66%의 지역이 구름으로 덮여 있어(Mao et al., 2019), 장기적인 해양 환경 분석에 제약이 따른다. 특히, 한반도 주변 해역은 사계절이 뚜렷한 기후적 특성으로 인해 다양한 형태의 구름이 빈번하게 발생하며, 여름철 장마 기간에는 구름의 영향을 더욱 크게 받고 있다(Seo et al., 2023). 이러한 기상 조건으로 인해 한반도 해역에서 관측되는 클로로필-a 농도 자료에 결측값이 빈번히 발생하며, 이는 해양 환경 변동을 지속적으로 모니터링하고 분석하는 데 어려움을 초래한다. 이러한 문제는 GOCI-II 해색 위성 센서에서도 발생한다.
GOCI-II는 높은 시간 해상도(10회/일)의 정보를 제공하지만 시공간적으로 불균일하게 발생하는 결측값으로 인해 자료의 신뢰도가 저하되고 연속적인 시공간 분석에 한계가 있다. 이러한 결측 문제로 인해 GOCI-II의 일별 데이터는 주별 또는 월별 자료로 합성되어 활용하는 경우가 많다(Sung et al., 2021). 하지만 해양 환경 요소인 풍속, 풍향, 강수량, 조류 등은 짧은 시간 내에 급격히 변할 수 있으며, 이에 따라 클로로필-a와 같은 해양 생물학적 인자도 하루 또는 몇 시간 내에 빠르게 변화할 수 있다(Han et al., 2018). 이러한 특성으로 인해 일별 데이터 복원의 중요성이 지속적으로 제기되고 있다(Cole et al, 2012). 해수면 온도(Huang et al., 2021; Baker et al., 2023), 육지 표면온도(Sarafanov et al., 2020)와 같은 물리적 환경 변수는 공간적·시간적 변동성이 비교적 적어 이에 대한 결측값 보간 연구는 활발하게 이루어져 왔다. 이에 반해, 클로로필-a와 같은 해양 생물학적 지표는 해류에 의한 이동(물리적 요인)과 동물성 플랑크톤의 섭식(생물학적 요인) 간의 복잡한 상호작용으로 인해 시간에 따라 공간적 변동성이 크다(Stock et al., 2020). 이러한 복잡성은 데이터를 예측하거나 보간하는 과정을 더욱 어렵게 만들어 해양 생물학적 지표를 대상으로 한 결측값 보간 연구가 상대적으로 미비한 실정이다.
Zhang et al. (2017)의 연구에서는 Long Short-TermMemory (LSTM) 네트워크를 사용해 해수면 온도를 예측한 바가 있으나, 이는 시간적으로 이웃한 데이터에 의존하고 공간적 맥락을 반영하지 않으며, 과거 15일의 연속 데이터가 있어야 해서 다수의 결측일이 연속적으로 존재하는 경우에는 적용이 어렵다는 한계가 있었다. 또한 Convolutional Neural Network (CNN)는 이미지 처리 분야에서 활발히 활용되고 있으며, 구름으로 인한 결측값 보간 연구(Chen et al., 2019; Cresson et al., 2019; Zhang et al., 2018)에도 적용되고 있다. 하지만 CNN기반 모델은 입력 데이터의 모든 픽셀이 유효해야 하므로, 누락된 데이터에 고정된 초기값을 할당하는 ‘홀 초기화’방법이나 인접 픽셀 값을 사용한 보간과 같은 전처리 단계가 필요하다. 그러나 이러한 전처리 단계는 결측 영역이 넓을수록 왜곡된 결과를 초래 할 수 있다. 위성 영상을 이용한 결측값 복원 기법은 크게 시계열 기반 방법과 공간 기반 방법이 있다(Weiss et al., 2014). 시계열 기반 방법은 선형 보간이나 푸리에 변환을 통해 특정 시점의 결측값을 복원하지만, 주변의 공간적 맥락은 고려하지 않는다는 한계가 있다. 반면, 공간 기반 방법에는 크리깅(kriging), 스플라인(spline), 역거리 가중 보간 등이 있으며, 결측 위치 주변의 관측값을 활용하여 결측 자료를 복원하지만, 시간적 정보를 이용하지 않는다. Jeon and Cho (2022)의 연구에서는 공간 기반 통계 기법인 크리깅을 활용하여 클로로필-a 결측값을 보간하였다. 그러나 크리깅은 시간적 변동성을 반영하지 못하고, 공간적 패턴이 급격히 변하는 지역에서는 정확한 복원이 어렵다. 또한, 넓은 영역을 처리할 때 높은 연산 비용이 요구되는 한계가 있다(Lops et al., 2021).
본 연구에서는 250 m의 높은 공간 해상도와 하루 최대 10회에 이르는 높은 시간 해상도를 가진 GOCI-II 해색 위성 센서로부터 산출된 클로로필-a 농도 자료의 결측값을 복원하기 위해 시공간적 특징을 활용한 결측값 보간 모델을 제안한다. 특히 결측값을 보간 할 날을 기준으로 시공간적으로 인접한 픽셀에 대해 CNN을 통해 각 날짜의 특징을 추출하고, Bidirectional Long Short-TermMemory (BiLSTM)을 통해 시간적 연속성을 반영하여 과거와 미래의 정보를 동시에 고려한 결측값 추정 모델 ConvBiLSTM을 개발한다.
ConvBiLSTM은 구름 밀집 정도와 결측 비율에 따른 정량적 성능(Root Mean Squared Error [RMSE], Mean Absolute Error [MAE], R squard [R2])과 정성적 복원 결과를 통해 성능을 검증하였으며, 해역 특성이 상이한 세 구역에서 실제 구름 영역의 결측값 보간 성능 검증을 수행하였다. 따라서 본 연구는 GOCI-II의 높은 시간 해상도를 활용하여 일별 결측 자료를 복원함으로써, 해양 환경 변화의 시계열적 분석과 중장기 예측 모델 연구에 기여할 수 있을 것으로 기대한다.
천리안 2B호 위성에 탑재된GOCI-II 해색 센서는 한반도를 중심으로 2,500 × 2,500 km 영역을 총 12개의 슬롯(slot)으로 나누어 관측한다. 한국 표준시(KST) 기준 8:15부터 17:15까지 1시간 간격으로 하루에 10회 관측을 수행하며, 이외에도 하루 한 번 반구(Full Disk)를 관측하여 자료를 생산한다. GOCI-II는 250 m의 공간 해상도를 가지며, 380–865 nm의 파장 범위에서 자외선부터 근적외선까지 12개의 밴드를 제공한다(Lee et al., 2023b). 본 연구에서는 GOCI-II 해색 센서의 관측 범위 중 슬롯 7(30° 39′ 55.44”N–39° 17′ 8.268″N, 121° 59′ 47.292″E–130° 24′ 19.368″E)에 해당하는 영역을 연구 지역으로 설정하였다. 연구 지역은 한반도, 황해, 동중국해를 포함하고 있으며, 부유 퇴적물 농도와 클로로필-a 농도, 유색 용존 유기물 등의 해양 광학적 특성이 시간 및 공간에 따라 활발히 변동하는 동적 해양 광학 특성을 가진다(Eom et al., 2017). Fig. 1은 연구 지역인 슬롯 7의 위치와 범위를 나타낸다. 본 연구에 사용된 클로로필-a 농도 데이터는 2023년 1월 1일부터 12월 31일까지의 자료로, GOCI Data Processing System (GDPS) v.2.0을 통해 처리된 L2 영상이다. 해당 자료는 국립해양조사원 국가해양위성센터(https://www.nosc.go.kr/)에서 제공된다.
Fig. 2는 본 연구의 클로로필-a 농도 데이터 결측값 보간 절차를 나타낸 흐름도로, 연구 과정은 데이터 전처리, 모델 학습 및 복원, 정확도 평가 단계로 구성된다. 데이터 전처리 단계에서는 구름 영역 마스킹, 이상치 제거, 일합성(daily averaging)을 통해 365개의 일별 합성 이미지를 생성한 뒤, 이를 128 × 128 블록(block)으로 분할하였다. 이는 구름으로 인한 미탐지 해역을 최소화하고, 모델 학습에 적합한 데이터 세트를 구성하기 위함이다. 이후, 연속된 7일동안 결측 비율이 20% 미만인 블록만을 선별하여, 구름 밀집도와 결측 픽셀 비율을 반영한 임의의 구름 마스크를 적용하여 모델 학습에 활용할 데이터를 구성하였다. 모델 학습 단계에서는 시간적·공간적으로 인접한 데이터를 활용하여 CNN과 BiLSTM을 결합한 모델을 통해 결측값 복원이 수행되었다. 모델 평가 단계에서는 테스트 데이터에 구름 마스크를 적용하여 결측 영역을 생성한 후, 복원된 결과를 참조 데이터와 비교하여 정량적 및 정성적 평가를 통해 성능을 검증하였다.
본 연구에서 사용된 클로로필-a 농도 자료는 픽셀별 flag 정보와 함께 Network Common Data Form (NetCDF) 형식으로 제공되며, flag 정보는 구름, 육지, 대기 보정 실패, 알고리즘 처리 실패와 같은 오차 정보를 구분한다(Lee et al., 2021). GOCI-II의 클로로필-a 데이터에서 각 픽셀은 구름/얼음(flag 1: Cloud_or_Ice), 육지(flag 2: Land), 대기 보정 실패(flag 3: AC_Fail), 엽록소 농도 계산 실패(flag 4: Chl-a_Fail)로 숫자 flag가 부여되어, 본 연구에서는 해당 flag를 가진 클로로필-a 픽셀을 분석에서 제외하여 1차적으로 이상값을 제거하였다. 그러나 구름 경계 부분과 같은 특정 영역에서는 flag만으로는 제거되지 않는 이상값이 여전히 발생하는 것을 확인하였다. 이러한 이상값, 즉 스펙클은 얇은 구름이나 구름에 인접한 고고도 에어로졸의 영향으로 인해 주로 발생하며, 특히 구름 가장자리에서 두드러진다. GOCI-II에서 발생하는 스펙클은 밴드별 위치 등록 과정에서의 오차로 인해 발생할 수 있다. 위성 센서가 여러 밴드의 영상을 획득하기 위해 사용하는 필터 휠은 밴드 간 전환을 위해 회전 및 안정화 시간이 필요하며,이 과정에서 관측 대상이 이동할 경우 밴드 간 화소 위치가 어긋나는 위치 오차가 발생할 수 있다. 이러한 오차는 대기 보정 과정에서 밴드 간 값의 불일치를 발생시키며, 결과적으로 스펙클과 같은 이상치를 발생시킨다. 특히 GOCI-I보다 공간 해상도가 높은 GOCI-II에서 그 영향이 더욱 두드러진다(Park et al., 2013).
이러한 문제를 해결하기 위해 본 연구에서는 flag 기반의 이상값 제거 외에도 추가적인 스펙클 이상값 제거 과정을 수행하였다. 각 구역 내에서 한 달 동안 매일 매시간 수집된 데이터를 기반으로 월별 이상치 경계를 설정하였다. Fig. 3은 2023년 10월 2일에 획득된 클로로필-a 농도 데이터에서 스펙클 제거 전후 결과를 보여주는 예시이다. Figs. 3(a–d)에서는 스펙클 제거 전의 클로로필-a 데이터를, Figs. 3(e–h)는 스펙클 제거 후 결과를 나타낸다. 클로로필-a 농도는 계절별로 큰 변동을 보이므로 월별 데이터의 분포를 고려하여 이상치 기준을 설정했다. 이 과정에서는 사분위수 범위(Inter Quartile Range, IQR)를 기반으로 한 임계값을 적용하여 이상치를 식별 및 제거함으로써 구름 경계 부분에서 발생할 수 있는 오탐지를 최소화하였다. 이후, 시간 단위로 수집된 클로로필-a 데이터를 단순 산술 평균하여 일일 합성 클로로필-a 데이터를 생성하였다.
본 연구에서는 결측값 보간 과정에서 구름의 밀집 정도가 중요한 영향을 미친다는 점에 착안하여(Dong et al., 2024), 이를 정량적으로 표현하기 위해 구름 밀집도 지표(Cloud Density Index, CDI)를 제안하였다. CDI는 구름이 넓게 분산된 상태일수록 낮은 값을, 고밀도로 집중된 상태일수록 높은 값을 갖도록 수치화한 지표로, Gaussian Random Field (GRF)를 기반으로 구름의 크기와 밀집도를 정량적으로 조절하여 다양한 구름 밀집 패턴을 형성하였다. GRF는 공분산 함수를 기반으로 공간 내 모든 점 간의 상관성을 계산해 구름의 확산 정도를 정량적으로 조절 할 수 있으며, 이를 식(1)과 같이 정의하였다.
여기서 s와 s′은 공간상의 좌표를 나타내며, || s – s′ ||2은 두 좌표 간의 유클리드(Euclid) 거리이다. GRF의 분산 σ2=0.95로 설정하였으며, CDI는 공간적 상관성의 범위를 조절하여 구름의 크기와 밀집도를 결정한다. 결측 픽셀 비율은 특정 임계값(Missing Pixel Ratio, MPR)을 통해 조절되며, CDI와MPR을 조합하여 다양한 결측 조건을 반영한 데이터를 구성하였다.
이를 통해 실제 관측 환경과 유사한 구름 패턴을 생성하여 모델의 학습과 성능 평가에 활용하였다. 본 연구에서는 연속된 7일 동안 결측 비율이 20% 미만인 클로로필-a 데이터를 기반으로, CDI 값을 50, 100, 400으로 MPR 값을 10%, 20%, 30%로 조합하여 다양한 구름 밀집도와 결측 비율을 반영한 훈련 및 테스트 데이터를 구성하였다. 이러한 데이터 구성 방식을 통해 결측값에 대한 실제 값을 알 수 있으므로 모델의 학습 및 성능 평가가 가능하도록 하였다. Fig. 4는 CDI와 MPR에 따라 생성된 결측값 패턴의 예시를 보여준다. 열은 MPR을, 행은 CDI 값에 따른 구름 밀집 형태를 나타낸다. CDI와MPR의 조합으로 다양한 구름 조건을 반영한 데이터를 구성하여 각 구름 유형에서 모델의 결측값 보간 성능을 평가하고, 이를 통해 모델이 다양한 구름 조건에서 결측값을 효과적으로 보간할 수 있는지 확인하였다.
본 연구에서는 결측값 보간을 위해 시간적·공간적으로 인접한 픽셀을 활용하여 결측 픽셀 값을 순차적으로 추정하는 접근 방식을 제안하였다. 이러한 접근 방식은 결측 픽셀 주변의 시공간적으로 인접한 데이터 간에 높은 상호 연관성이 존재한다는 가정에 기반하며, 인접한 시점과 위치의 픽셀 데이터를 활용하여 결측값을 추정하는 것이다. 전체 이미지를 대상으로 한 접근 방식을 고려하기도 하였으나, 본 연구는 시공간적 특징을 가진 픽셀을 활용하는 방식을 통해 다양한 형태와 해상도를 가진 데이터에도 유연하게 적용할 수 있는 장점이 있다. 결측값 보간 과정에서는 결측을 채울 특정 날짜(t)를 포함하여 전후 3일(t –3, t -2, t –1, t +1, t +2, t +3) 동안의 데이터를 활용하였다.
Fig. 5에서 빨간 점은 결측을 보간할 대상 픽셀을 나타내며, 원은 대상 픽셀을 중심으로 인접 픽셀을 선택하는 반경을 나타낸다. 각 날짜 별로 해당 픽셀에 가장 인접한 100개의 픽셀이 경위도 좌표에서 유클리드 거리를 기준으로 추출되며, 총 700개의 특징 벡터를 구성하였다. 이러한 인접 픽셀은 식(2)를 통해 계산된 유클리드 거리를 기준으로 선택된다. 여기서 D는 결측 픽셀과 인접 픽셀 간의 유클리드 거리이며, (xc, yc)는 결측 픽셀의 좌표, (xn, yn)은 이웃 픽셀의 좌표를 의미한다.
시공간적 관계성을 반영하여 구성한 700개의 인접 픽셀 데이터를 기반으로, 결측 클로로필-a 값을 예측하기 위해 CNN과 BiLSTM 네트워크를 결합한 결측값 보간 모델(ConvBiLSTM)을 개발하였다. Fig. 6은 제안된 ConvBiLSTM모델의 전체 아키텍처를 보여준다. 입력 데이터는 결측값을 보간하려는 특정 시점을 기준으로 전후 3일의 인접 데이터를 포함하고 있으며, ConvBiLSTM 모델에서는 Time Distributed Layer를 활용하여 각 시간 단계마다 동일한 합성곱 레이어를 적용함으로써 각 날짜별 독립적인 특징을 추출한다. CNN을 통해 추출된 시점별 특징들은 BiLSTM의 입력으로 전달되며, BiLSTM은 LSTM과 달리 데이터 시퀀스를 순방향과 역방향으로 모두 학습하여 과거와 미래의 패턴을 동시에 반영한다.
결측값 보간 모델은 TensorFlow 프레임워크를 기반으로 개발되었으며, NVIDIAGeForce RTX 4090 그래픽 처리장치를 활용하여 학습 및 테스트가 수행 되었다. ConvBiLSTM모델의 구조는 CNN 층 2개와 BiLSTM 층 2개로 구성되었으며, CNN 층에서는 ReLU 활성화 함수를 사용하여 비선형성을 반영하였다. BiLSTM 층은 첫 번째 층에서 128개의 노드(node), 두 번째 층에서 64개의 노드를 사용하였으며, 학습 중 과적합을 방지하기 위해 30%의 드롭아웃(dropout)을 적용하였다. 모델 훈련에는 총 5,718 세트의 훈련 데이터가 사용되었으며, 이 중 60%를 학습 데이터로, 나머지 40%를 검증 데이터로 사용하였다. 손실 함수로는Mean Squared Error (MSE)를 사용 하였다. 최적화 알고리즘은 학습률 10-4로 설정하여 AdamOptimizer를 사용하였으며, 배치 크기는 256으로, 총 200회의 반복 학습을 진행하였다. 이를 통해 ConvBiLSTM모델은 시·공간적 연속성을 반영하여 특정 날짜의 결측 클로로필-a 값을 예측하며, 인접한 날짜의 정보를 기반으로 중간 날짜의 결측값을 추정하는 경향성을 학습하게 된다.
본 연구에서는 결측값 복원 모델의 성능을 검증하기 위해 임의의 구름 데이터와 실제 구름 데이터를 활용하였다. 임의의 구름 데이터 검증에서는 CDI와MPR을 반영하여 다양한 구름 패턴을 생성한 후, 각 구름 유형에 대해 모델의 복원 성능을 정량적·정성적으로 평가하였다. 실제 구름 데이터 검증에서는 GOCI-II의 2023년 클로로필-a 데이터에서 관측된 구름 영역을 추출한 뒤, MPR을 10–30%, 30–50%, 50–70% 구간으로 나누어 구름 마스크를 생성하였다. 생성된 구름 마스크는 Fig. 7에 제시된 상이한 해양적 특성을 갖는 Region 1, Region 2, Region 3 세 구역의 테스트 데이터에 적용하여 실제 구름 조건에서의 모델 복원 성능을 평가하였다.
Table 1은 훈련에 사용되지 않은 구역에서 생성된 총 270개의 결측 데이터 세트를 기반으로, 각 결측 픽셀 비율과 CDI의 조합에 따른 모델의 복원 성능 지표(RMSE, MAE, R2)를 나타낸다. 각 CDI와 MPR 조합에 대해 30개의 세트를 대상으로 평가를 수행했으며, 이를 통해 모델이 다양한 구름 밀집 형태에서도 안정적인 결측값 복원 성능을 유지하는지를 평가하였다. Table 1에서 볼 수 있듯이 동일한MPR을 적용하더라도 구름 밀집도가 낮을수록 결측값 복원이 더 효과적으로 이루어지는 경향이 나타났다. 이는 구름이 넓게 분산된 형태일수록 인접한 픽셀 정보를 복원에 활용하기에 용이하여 복원 성능이 향상됨을 의미한다. 반면, 고밀도 구름 영역에서는 결측 픽셀과 인접한 유효한 데이터가 부족하여 복원에 필요한 정보가 제한되어 복원 성능이 상대적으로 저하되는 경향을 보였다.
Table 1 . Statistical performance based on simulated cloud patterns and missing pixel ratios (Units for MAE and RMSE: mg/m3).
MPR | CDI | MAE (Std. Dev.) | RMSE (Std. Dev.) | R2 (Std. Dev.) |
---|---|---|---|---|
10% | 50 | 0.0077 (0.0054) | 0.0151 (0.0141) | 0.9119 (0.1612) |
100 | 0.0105 (0.0072) | 0.0212 (0.0165) | 0.9104 (0.1245) | |
400 | 0.0114 (0.0082) | 0.0227 (0.0169) | 0.9041 (0.1160) | |
20% | 50 | 0.0097 (0.0053) | 0.0187 (0.0121) | 0.9453 (0.0915) |
100 | 0.0101 (0.0059) | 0.0195 (0.0117) | 0.9024 (0.1630) | |
400 | 0.0103 (0.0074) | 0.0193 (0.0135) | 0.9108 (0.1061) | |
30% | 50 | 0.0098 (0.0056) | 0.0197 (0.0139) | 0.9294 (0.0928) |
100 | 0.0115 (0.0071) | 0.0213 (0.0131) | 0.9122 (0.1234) | |
400 | 0.0111 (0.0076) | 0.0201 (0.0145) | 0.9262 (0.0933) |
Std. Dev.: standard deviation..
각 지표의 분산은 구름 밀집도가 낮은 경우 비교적 낮게 나타나 복원 성능이 데이터 세트 간에 안정적으로 유지되는 경향을 보였다. 반면, 고밀도 구름 영역에서는 분산 값이 증가하면서 복원 성능의 변동성이 더 크게 나타났다. 이는 연구에서 유클리드 거리를 기반으로 인접 픽셀을 선택하였음에도, 고밀도 구름 영역에서는 유효한 인접 픽셀이 충분하지 않아 복원 성능이 저하될 수 있음을 시사한다. 결론적으로, 결측 픽셀 비율보다 구름 밀집도가 복원 성능에 더 중요한 요인으로 작용하며, 고밀도의 구름 영역에서는 결측값 복원이 상대적으로 어려움을 알 수 있다.
본 절에서는 Fig. 7에 제시된 세 구역(Region 1, Region 2, Region 3)을 대상으로 실제 구름 영역을 적용한 결측값 복원 결과를 분석하였다. 2023년 GOCI-II 클로로필-a 데이터에서 추출된 구름 영역을 기반으로 MPR을 10–30%, 30–50%, 50–70% 구간으로 나누어 구름 마스크를 생성하여 테스트 데이터에 적용하였다. 각 구역의 데이터는 Region 1 (2023년 8월 5일), Region 2 (8월 4일), Region 3 (8월 2일)에 해당하며, 결측 비율에 따른 복원 성능을 정량적·정성적 평가를 수행하였다.
Region 1은 한반도 남서쪽에 위치하며, 중국 황해와 양쯔강 하구로부터 영향을 받는 지역이다. 양쯔강 및 중국 하천수의 유입으로 형성된 연안수가 한반도 남서 해역까지 확장되며, 해당 해역은 높은 클로로필-a 농도를 나타내는 특징이 있다(Oh and Suh, 2006). Region 2는 한반도 남해안과 대한해협 부근으로, 맑은 해역부터 탁한 해역까지 폭 넓은 해수 환경이 공존하는 지역이다. 복잡한 해안선 구조를 가진 남해안은 해역에 따라 상이한 해수 환경을 나타내며, 외해역은 쿠로시오 해류의 영향으로 비교적 맑은 해수의 특징을 가진다. 이러한 영향으로 인해 해당 해역의 클로로필-a 농도는 대체로 낮은 특성을 보인다(Shin et al., 2020). Region 3은 황해 북부와 서해 북쪽의 중국 연안과 인접한 해역으로, 중국 연안 해역에서 유입되는 부유 물질과 영양 염류의 영향을 받는다. 해당 해역은 계절적 요인에 따라 클로로필-a 농도가 크게 변동하며, 중국 연안수의 유입과 혼합으로 인해 중간 수준의 클로로필-a 농도를 보인다(Son et al., 2012).
Figs. 8, 9, 10은 각각 Region 1, Region 2, Region 3에서 실제 구름 조건에서의 결측값 복원 결과를 정성적 및 통계적으로 나타낸 것이다. 첫 번째 열은 실제 클로로필-a 값(ground truth), 두 번째 열은 구름에 의해 결측값이 추가된 이미지를, 세 번째 열은 복원된 값을, 마지막 열은 복원된 값과 실제 값 간의 통계적 비교를 통해 복원 정확도를 평가하였다. MPR이 증가함에 따라 복원 성능의 통계적 지표인 MAE와 RMSE 값이 높아지고 R2 값은 다소 감소하는 경향을 보였다. Region 1에서 MPR이 28%일 때 R2 값은 0.9282로 나타났으나, MPR이 64%로 증가할 때 R2 값이 0.8399로 감소하였다. 이는 구름이 고밀도로 밀집된 구역에서 인접 데이터의 부족으로 인해 복원 정확도가 상대적으로 낮아질 수 있음을 의미한다. 이와 같은 경향은 Region 3에서도 유사하게 나타났다. Region 2에서는MPR이 24%에서 R2 값이 0.9228이었으나, MPR이 66%로 증가할 때 R2 값이 0.9567로 소폭 상승하였다.
이는 해당 구역의 구름 밀집도가 비교적 낮아 인접 픽셀의 정보를 효과적으로 활용할 수 있었기 때문으로 해석된다. 반면, Region 3에 서는MPR이 44%에서 R2 값이 0.9652 였지만, MPR이 65%로 증가하면서 R2 값이 0.8554로 감소하였다. 이는 Region 3의 65% 구름 패턴이 높은 밀집도로 인해, 인접 픽셀의 활용이 제한되어 복원 성능이 저하된 것으로 분석된다. 이러한 결과는 본 연구의 3.1절에서 논의한 구름 밀집도와 결측 비율에 따른 복원 성능 분석과 일관성을 가지며, 고밀도 구름 영역에서 복원 정확도가 낮아질 가능성을 시사한다. 또한 결측값이 보간된 이미지의 경계 영역에서 자연스럽게 연결되지 않는 부분이 관찰되었으며, 이는 고밀도 구름 영역에서 인접 데이터가 부족하여 복원 성능이 저하된 결과로 해석된다.
Table 2는 실제 구름 데이터를 기반으로 각 결측 비율 구간에서 복원 성능을 정량적으로 평가한 결과를 제시한다. 각MPR 구간별로 20개 데이터 세트를 대상으로MAE, RMSE, R2의 평균과 표준편차를 계산하여 복원 성능을 수치적으로 분석하였다. 분석 결과, MPR이 증가함에 따라MAE와 RMSE 값이 증가하고 R2 값은 감소하는 경향이 뚜렷하게 나타났다. 이는 구름이 고밀도로 분포된 경우 유효한 인접 데이터를 확보하기 어려워짐에 따라 복원 성능이 저하된다는 것을 정량적으로 뒷받침해 준다. 이러한 결과는 정성적 평가와도 일관되며, 고밀도 구름 영역에서의 결측값 보간의 어려움을 보여준다. 더불어 각 MPR 구간에서 표준편차는 안정적으로 유지되었으며 이는 실제 구름 영역에서 복원 성능의 변동성이 크지 않음을 시사한다.
Table 2 . Overall statistical performance based on real cloud patterns (Units for MAE and RMSE: mg/m3).
MPR | RMSE (Std. Dev.) | MAE (Std. Dev.) | R2 (Std. Dev.) |
---|---|---|---|
10–30% | 0.0860 (0.0683) | 0.0612 (0.0491) | 0.9189 (0.0892) |
30–50% | 0.1021 (0.0725) | 0.1058 (0.0536) | 0.8732 (0.0664) |
50–70% | 0.1587 (0.0905) | 0.1189 (0.0527) | 0.8226 (0.1248) |
Std. Dev.: Standard Deviation..
GOCI-II 해색 위성 센서는 높은 시간 해상도로 해양 환경의 단기 및 중장기 변화를 모니터링하는 데 유용하게 활용되고 있으나, 구름과 기상 조건으로 인해 빈번히 발생하는 결측값이 자료의 연속성을 저해하는 한계가 있다. 이러한 결측 문제를 보완하기 위해 8일 또는 1개월 단위의 합성 자료가 주로 사용되지만, 이러한 자료에서도 여전히 결측값이 남아 있어 연속적인 데이터 확보에 한계가 있다(Park et al., 2022a; 2022b). 본 연구에서는 GOCI-II 해색 위성 센서로부터 수집된 일별 클로로필-a 농도 자료에서 발생하는 결측값을 보간하기 위해 시공간적 특징을 학습하는 ConvBiLSTM모델을 제안하고, 그 결과를 정량적 및 정성적으로 평가하였다. 결측이 발생한 날짜의 전후 3일 동안 각 날짜에 대해 결측 픽셀과 가장 인접한 데이터를 유클리드 거리를 기준으로 추출하여 시공간적 특징을 입력 데이터로 구성하였다. 제안된 모델은 Time Distributed Layer를 통해 CNN에서 각 날짜의 특징을 독립적으로 추출한 후, BiLSTM으로 전달되어 과거와 미래의 시점 정보를 동시에 학습함으로써 결측값 복원 과정에서 시공간적 연속성을 반영하였다. 또한, 구름의 밀집 정도를 정량적으로 표현하기 위해 CDI를 활용하고, CDI와 MPR을 결합하여 다양한 구름 패턴을 생성하고 보간 성능을 평가하였다. 결과적으로, ConvBiLSTM은 다양한 구름 조건과 결측 비율에서도 효과적으로 결측값을 보간 할 수 있음을 확인하였다. 실제 구름 영역을 대상으로 한 실험에서도 일관된 성능을 보여주어 GOCI-II 자료에서 일별 데이터를 보다 신뢰성 있게 활용할 수 있는 가능성을 제시하였다. 다만, 복원된 데이터에서는 결측을 채운 부분과의 경계에서 어색한 연결이 발생하는 한계가 관찰되었으며 이는 향후 개선이 필요한 부분이다.
향후 연구에서는 본 연구에서 사용한 7일간의 데이터를 개별적으로 처리하여 결측값을 복원하는 방식을 개선하여, 연속된 시계열 데이터를 3차원으로 구성하여 3차원 컨볼루션을 적용함으로써 연속된 날의 시공간적 패턴을 동시에 학습하며 결측값을 복원하여 성능을 더욱 향상시키고자 한다. 또한, 복원된 데이터의 경계 부분에서도 자연스러운 연결이 가능하도록 손실 함수를 개선함으로써, 보다 연속적이고 높은 정밀도의 결측값 복원을 수행하여 일별 데이터를 생성하고자 한다. 특정 날짜의 데이터를 복원하는 데 그치지 않고 특정 구역에서 시간적으로 연속된 복원한 결과를 기반으로 시계열적 연속성이 얼마나 잘 유지되는지를 평가하고자 한다. 이어서 계절별 구름 특성으로 인한 데이터 복원 성능의 차이를 정량적으로 분석하여 계절적 요인이 복원 정확도에 미치는 영향을 분석하고자 한다. 더불어 결측 픽셀과 유효한 픽셀을 구분하는 마스크를 활용하여 유효한 픽셀 정보를 기반으로 결측 영역을 단계적으로 복원하고 구름이 밀집된 지역에서도 유효한 정보를 점진적으로 반영함으로써 복원 정확도를 높이고자 한다.
이 논문은 국립부경대학교 자율창의학술연구비(2023년)에 의하여 연구되었습니다.
No potential conflict of interest relevant to this article was reported.
Table 1 . Statistical performance based on simulated cloud patterns and missing pixel ratios (Units for MAE and RMSE: mg/m3).
MPR | CDI | MAE (Std. Dev.) | RMSE (Std. Dev.) | R2 (Std. Dev.) |
---|---|---|---|---|
10% | 50 | 0.0077 (0.0054) | 0.0151 (0.0141) | 0.9119 (0.1612) |
100 | 0.0105 (0.0072) | 0.0212 (0.0165) | 0.9104 (0.1245) | |
400 | 0.0114 (0.0082) | 0.0227 (0.0169) | 0.9041 (0.1160) | |
20% | 50 | 0.0097 (0.0053) | 0.0187 (0.0121) | 0.9453 (0.0915) |
100 | 0.0101 (0.0059) | 0.0195 (0.0117) | 0.9024 (0.1630) | |
400 | 0.0103 (0.0074) | 0.0193 (0.0135) | 0.9108 (0.1061) | |
30% | 50 | 0.0098 (0.0056) | 0.0197 (0.0139) | 0.9294 (0.0928) |
100 | 0.0115 (0.0071) | 0.0213 (0.0131) | 0.9122 (0.1234) | |
400 | 0.0111 (0.0076) | 0.0201 (0.0145) | 0.9262 (0.0933) |
Std. Dev.: standard deviation..
Table 2 . Overall statistical performance based on real cloud patterns (Units for MAE and RMSE: mg/m3).
MPR | RMSE (Std. Dev.) | MAE (Std. Dev.) | R2 (Std. Dev.) |
---|---|---|---|
10–30% | 0.0860 (0.0683) | 0.0612 (0.0491) | 0.9189 (0.0892) |
30–50% | 0.1021 (0.0725) | 0.1058 (0.0536) | 0.8732 (0.0664) |
50–70% | 0.1587 (0.0905) | 0.1189 (0.0527) | 0.8226 (0.1248) |
Std. Dev.: Standard Deviation..
Geun-Ho Kwak 1) · No-Wook Park 2)†
Korean J. Remote Sens. 2021; 37(4): 719-731Geun-Ho Kwak1) · Min-Gyu Park2) · Chan-Won Park3) · Kyung-Do Lee 4) · Sang-Il Na 4) · Ho-Yong Ahn4) · No-Wook Park 5)†
Korean J. Remote Sens. 2019; 35(5): 681-692Deuk Jae Hwang
Korean J. Remote Sens. 2025; 41(1): 101-110