Korean J. Remote Sens. 2025; 41(1): 11-29
Published online: February 28, 2025
https://doi.org/10.7780/kjrs.2025.41.1.2
© Korean Society of Remote Sensing
육군3사관학교 건설공학과 조교수
Correspondence to : Donghwan Kim
E-mail: raintear@kaay.ac.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Accurate estimation of river discharge (Q) globally is essential for water resources management, including flood control and drought management. However, the number of stream gauges globally used to calculate Q is decreasing. Additionally, estimating Q of transboundary rivers or rivers with unique hydrological characteristics, such as the Mekong River, is challenging using traditional hydrological methods. The most representative methods for estimating Q have been the empirical power function using at-a-station hydraulic geometry (AHG) proposed by Leopold and Maddock (1953) and the method using Manning's equation proposed by Manning (1889). Recently, Kim et al. (2019a; 2019b; 2021) improved the accuracy of Q estimation in the Congo and Mekong River Basins using ensemble learning regression for estimating Q (ELQ). However, despite ELQ's superior performance, its mathematical and hydrological framework has not been studied in detail. This review study analyzed relevant papers to understand the mathematical and hydrological significance of ELQ, which differentiates it from existing Q prediction techniques. We also analyzed cases cited in other international papers. Through this analysis, we expect to draw the contribution of the ELQ method for estimating Q to remote sensing hydrology domestically and internationally.
Keywords Ensemble learning, ELQ, River discharge, Congo River, Mekong River, Satellite altimetry, Weak learner
전 세계적으로 하천 유출량(Q)을 정확히 예측하는 것은 홍수조절, 가뭄관리 등 수자원 관리에 필수적인 요소이지만, 전 세계적으로 (Q)를 산출하고 추정하기 위한 현장 게이지의 숫자는 감소추세에 있다. 또한 공유하천이나 메콩강처럼 특수한 수문학적 특징을 보이는 하천의 유량은 기존 수문학적 방법으로 유출량을 산정하기에는 어려움이 따른다. 전통적으로 하천 유출량을 구하는 대표적인 방법들로 Leopold and Maddock (1953)이 제시한 at-a-station hydraulic geometry (AHG)를 이용한 경험 멱함수(empirical power function)와 Manning (1889)이 제안한Manning’s equation을 이용한 방법 등이 있다. 최근 Kim et al. (2019a; 2019b; 2021)은 앙상블 러닝 회귀법(ensemble learning regression for estimating (Q), ELQ)이라는 머신러닝 기법을 통해 콩고강과 메콩강 일대의 하천 유출량 예측 정확도를 향상시켰다. 그러나 ELQ의 우수성에도 불구하고 ELQ의 수학적·수문학적 프레임워크(framework)에 대해 자세히 연구된 바는 없다. 본 리뷰 연구에서는 ELQ 관련 논문들을 분석하여, ELQ가 기존 하천 유출량 예측기법과 차별화되는 수학적·수문학적 의의를 살펴보고, 여러 국제논문에서 인용된 사례를 분석했다. 이로써 ELQ기법이 원격탐사 수문학에 기여하는 바를 도출하여, 향후 국내·외 원격탐사 수문학에 활용되어 보다 정확한 하천 유출량을 예측하는 방법이 되기를 기대한다.
주요어 앙상블 러닝, 앙상블 러닝 회귀법, 하천 유출량, 콩고강, 메콩강, 위성 고도계, 약한 학습자
전 세계적으로 하천 유출량(river discharge, Q)을 정확히 측정하고 예측하는 것은 홍수조절, 가뭄관리 등 수자원 관리에 매우 필수적인 요소이지만, 전 세계적으로 Q를 산출하고 추정하기 위한 현장 게이지(stream gauge)의 숫자는 감소 추세에 있다(Collins et al., 2024). 따라서, 현재 운영되고 있는 현장 게이지에 의해 취득되는 데이터는 점점 희소해지고 있으며, 데이터를 획득하는데 많은 제한 사항이 따른다(Du et al., 2020). 예를 들면, Congo Basin은 강 유역 기준으로Amazon Basin에 이어 두 번째로 넓고(~3.7 million km2), 유출량 기준으로 전세계에서 두 번째이지만(~40,600 m3/s), 20세기 초까지 수 백 개의 현장 게이지가 있었던 것이 최근에는 약 10개 정도로 현저히 줄어든 상태이다(Alsdorf et al., 2016; Kim, 2021). 또한, 공유하천(두 나라 이상의 국경을 지나 흐르는 하천, transboundary river)의 경우에는 수자 원에 대한 주변 국가들의 이익이 상충되는 경우가 많고, 이러한 경우 현장 게이지가 운영되더라도 데이터를 획득하거나 주변국까지 데이터를 공유하기가 매우 어렵다. 이러한 공유하천은 전 세계적으로 약 261개 이상, 전 세계 담수유량의 약 60%를 차지한다(Kim et al., 2020).
한편, 동남아시아에 위치해 있는 메콩강(Mekong River)의 경우 Tonle Sap Lake (TSL)와의 상호작용에 따라 특수한 수문학적 특징을 보인다. 우기(wet season)에는 메콩강의 수위가 상승하여 TSL의 수위보다 높아져 메콩강의 물이 호수로 역류하면서 호수 및 floodplain의 면적이 넓어지고, 건기(dry season)에는 반대로 메콩강의 수위가 낮아지면서 호수의 물이 다시 메콩강으로 흘러들어가 호수 및 floodplain의 면적은 줄어드는 경향을 보인다(Chang et al., 2020). 이러한 메콩강 유역의 연간 유량 변화 및 계절에 따른 유량 역전 현상은 기존의 수문학적 방법을 통해 유량을 산출하기에 많은 제한사항이 발생한다(Chang et al., 2019). 이렇듯 전 세계적으로 미계측 지역의 하천 유출량 산정을 위해 지금까지 다양한 방법이 연구되어 왔지만, 상대적으로 우리나라 원격탐사분야 학회지에서는 이러한 연구들이 많이 이루어지지 않았다. 2025년 1월 기준 대한원격탐사학회(https://www.kjrs.org/main.html)에서 검색어로 river discharge를 입력한 결과 검색되는 논문은 총 6편으로써 연안 해저 지하수 유출 특성에 관한 연구 1건(Kim and Jung, 2021), 홍수량 및 홍수면적에 대한 피해범위 산정에 관한 연구 4건(Son and Kim, 2019a; 2019b; Park and Lee, 2018a; Kim et al., 2018), 위성 영상을 활용한 가뭄 모니터링 1건(Park and Lee, 2018b)이며, 미계측 지역의 하천 유출량 산정에 대한 연구는 부족했다.
하천 유출량Q는 식(1)과 같이 하천 흐름의 평균 유속(mean velocity of flow)과 단면적(cross-sectional wetted area)의 곱으로 정의된다 (Chow, 1959).
여기서 Q는 하천 유출량이며, v는 평균유속, A는 단면적을 나타낸다. 한편, 이러한 하천 유출량을 구하는 방법은 전통적으로 두 가지 방법에 의해 주로 산출되었는데, 하나는 Leopold and Maddock (1953)이 제시한 at-a-station hydraulic geometry (AHG)를 이용한 방법으로, 그들은 하천 유출량에 대해 식(2–4)와 같은 경험 멱함수(empirical power functions)를 제안했다.
여기서 Q는 하천 유출량이며, w, d, v는 각각 하천의 폭, 깊이, 유속을 말하며, a, b, c, h, k, m은 경험상수로써, a · c · k와 b + h + m은 각각 1이다(Dingman, 2007). 하천의 수리변수(hydraulic variables)들인 폭, 깊이, 유속 중 한 가지를 이용하면, 식(2–4)를 이용하여 하천 유출량을 계산할 수 있다.
다른 하나는Manning (1889)이 제안한 경험식인Manning’s equation을 이용한 방법이다.
여기서 Q는 하천 유출량이며, n은 Manning’s roughness coefficient이며, A는 흐름의 단면적, R은 동수경사(hydraulic radius), S는 channel slope를 말한다. 일반적으로Manning’s eqaution을 적용할 때 하천의 흐름은 등류(uniformflow)이며, 하천 바닥의 경사와 하천 표면의 경사가 같은 것으로 가정한다.
지금까지 하천 유출량의 계산은 크게 위 두 가지 방법으로 산출되었으나, 최근 원격탐사(remote sensing, RS) 기법의 발전에 따라 위 두 가지 식에 포함된 수리 변수들을 직접측량이 아닌 원격탐사 방법으로 측량할 수 있게 되었고, 이에 따라 지난 수십 년간 원격탐사에 의 한 하천 유출량 기법이 발전하게 되었다. Kim et al. (2019a)은 원격탐사 등에 의한 하천 유출량 측정 기법을 아래와 같이 분류했다.
Velocity-area method (속도-면적 기법): 하천 유출량의 정의에 따라 유출량을 하천의 유속과 단면적의 곱으로 계산하는 방법이며, Tarpanelli et al. (2015)은Moderate-Resoultion Imaging Spectrometer 영상을 이용하여 유속과 단면적을 얻어 하천 유출량을 구했다.
H-Q rating curve (수위-유출량 관계 곡선): AHG에 기반한 방법으로 많은 연구자들이 하천 수위와 유출량에 대한 관계곡선을 얻은 후 하천 유출량을 구했다(Coe and Birkett, 2004; Kouraev et al., 2004; Normandin et al., 2018; Bogning et al., 2018).
Effective riverwidth (We)-Q rating curve (유효 하천폭-유출량 관계 곡선): 하천 유출량은 유효 하천폭과 유출량의 관계식에서 얻어진다(Temimi et al., 2005; Smith and Pavelsky, 2008; Beighley and Gummadi, 2011; Yamazaki et al., 2014; Scherelis et al., 2023; Huang et al., 2018).
Manning’s equation: Manning’s equation과 그것을 일부 수정하여 얻은 식을 이용하여 하천 유출량을 계산한다. S (surface water slope), We, H, v 등 수리변수들의 곱으로 하천 유출량을 구한다(Bjerklie et al., 2005; Jung et al., 2010).
At-many-stations hydraulic geometry (AMHG): 하천 유출량은 in-situQ데이터 없이 위성영상에서 얻어진 수리변수들을 이용한 scaling law를 이용해 얻어진다(Gleason and Smith, 2014; Gleason et al., 2014).
Hydrologic and/or hydrodynamic model (수문 모델 및 수문 동역학 모델): 하천 유출량은 원격탐사 관측값과 수문 모델 및 수문 동역학 모델 값에 의해 얻어진다(Brakenridge et al., 2012; Andreadis et al., 2007; Liu et al., 2015; Tarpanelli et al., 2013).
Table 1은 원격탐사로부터 얻어진 수리 변수들(H, We, S)을 이용하여 Q를 예측할 때 발생하는 제약사항들을 정리한 것이다. 즉, 위성 고도계(radar altimetry)를 이용하여 하천 수위 정보를 얻을 수 있는데, 이러한 방법의 단점은 위성의 재방문 주기(repeating cycles)가 10~35일로 다소 길다는 점과 위성 고도계의 ground track 간격이 수십~수백 km에 이른다는 점이다. 예를 들면, Envisat과 Jason-1 위성 고도계의 경우, 적도에서 ground track 간격은 각각 80 km와 315 km이다. 한편, 유효 하천 폭(We)을 이용한 하천 유출량 예측은 비교적 쉽게 위성 영상에서 그 정보를 추출할 수 있지만 그 결과물의 정확성이 상대적으로 낮다는 단점이 있다(Smith and Pavelsky, 2008; Gleason et al., 2014). 또한, 하천 표면 경사(S)를 위성 영상에서 추출하여 수정된 Manning’s equation을 사용하여 Q를 산출할 수 있지만, S를 추출하는 방법은 상대적으로 어려워 이러한 방법을 사용하여 하천 유출량을 계산한 사례는 매우 드문 실정이다(Jung et al., 2010; LeFavour and Alsdorf, 2005). 그러나 미국의 National Aeronautics and Space Administration(NASA)와 프랑스 우주청 FrenchNational SpaceAgency (CNES)가 공동 추진하는 임무인 SurfaceWater and OceanTopography (SWOT) 위성이 2022년 12월 16일 미국 캘리포니아주 반덴버그 우주군 기지에서 발사됨에 따라, 앞으로는 하천 표면 경사 등의 수리변수 추출이 비교적 쉬워질 것으로 예상된다.
Table 1 Constraints to estimate Q using hydraulic variables based on RS methods
Hydraulic variables | Constraints to estimate Q |
---|---|
Altimetry-derived H | Repeating cycles of 10 to 35 days Sparse orbital spacings |
We derived from satellite imagery | Less accurate results than those obtained from altimetry-derived H |
S derived from SRTM DEM | Rarely used to estimate Q due to unavailability (i.e., difficult to obtain) |
SRTM: Shuttle Radar Topography Mission, DEM: Digital Elevation Model.
이와 같이 하천 유출량을 예측하기 위하여 획득 가능한 다양한 수리 변수들과 모델이 존재하지만 각 선택지에 따른 단점이 존재하며, 어떠한 단일 변수나 단일 모델이 다른 모든 다른 변수나 모델들보다 성능이 월등하게 뛰어날 수는 없다. 이는 수학적으로 No free lunch theorem 이라고 한다(Wolpert, 1996). 한편, Kim et al. (2019a) (이하 K19)은 하천 유출량을 계산하기 위한 앙상블 러닝 회귀법(ensemble learning regression for estimating river discharge, ELQ)을 개발함으로써 기존 AHG 또는 Manning’s equation에 기반한 다른 하천 유출량 계산법보다 정확한 유출량 알고리즘을 개발했다. 또한, 이 기법은 아프리카 콩고 강 유역에 적용된 데에 이어 ELQ를 메콩강 유역에 적용하여 기존 하천 유출량 계산보다 더욱 정확한 결과를 보였다(Kim et al., 2019b) (이하 K20). 더 나아가 ELQ를 in-situQ데이터에 의존하지 않고 수문학 모델과 결합하여 더 정확한 하천 유출량을 산정하였다(Kim et al., 2021) (이하 K21).
최근 몇 년 간 인공지능, 머신러닝 및 딥러닝 기법은 수리 수문학 분야에도 많은 영향을 끼쳤다. 이에 따라 하천 유출량을 산정하고 수리 수문학 분야에 이러한 기법들을 사용한 논문들이 다수 소개되고 있다(Wang et al., 2024; Lu et al., 2023; Meddage et al., 2022; Zounemat-Kermani et al., 2021). 예를 들면 Lu et al. (2023)은 두 개 저수지의 이전 유출량 값과 유역 강수량 데이터를 활용하여 하천 일일 유출량을 머신러닝 기법으로 예측하여 향상된 정확도를 보여 주었으며, Wang and Peng (2024) 또한 미국 본토를 대상으로 수문학적 시뮬레이션과 머신러닝 기법을 사용하여 하천 유출량의 정확도를 향상시켰다. 이와 같이 최근 머신러닝 기법의 사용은 수문 모델 및 수문 동역학 모델에서 다양한 변수를 결합하는 과정에서 향상된 결과를 보였다. 그러나 이러한 수문 모델을 유지 관리하는 것은 시간과 비용이 많이 소요되기 때문에, 미계측 지역 하천에 대한 유출량 예측에는 적합하지 않을 수 있다. 또한, 이러한 머신러닝 기법을 사용한 최근 논문들은 머신러닝의 다양한 기법을 혼합하여 더 나은 결과 값들을 다수 도출하였지만, 그 기법을 위한 입력 데이터 변수에 대한 고려사항이나 수학적·수문학적 고찰이 다소 부족한 실정이다.
이에 따라 본 논문에서는 원격탐사 데이터를 사용한 하천 유출량 산정 및 예측 분야에서 머신러닝을 사용한 기법인 ELQ의 수문학 및 수학적 프레임워크에 대하여 고찰하고자 한다. ELQ 기법을 이용한 하천 유출량 예측 관련 논문(K19-K21)은 지금까지(2024년 11월 기준) 많은 국제논문에서 약 94회 인용된 바 있지만, 아직 그 수학적·수문학적 프레임워크에 대해 자세히 소개된 바가 없다. 따라서 본 연구에서는 발표된 ELQ 논문(K19-K21)에 대해 간단히 소개하고, ELQ가 기존 하천 유출량 예측 기법과 차별화되는 수학적·수문학적 의의를 알아본다. 또한, 다른 국제논문에 인용된 사례를 분석하여 ELQ 기법이 원격탐사에 기반한 수문학에 기여한 바를 도출하고, 향후 국내·외 원격탐사 수문학(remote sensing hydrology) 분야에 활용되어 보다 정확한 하천 유출량을 예측할 수 있도록 ELQ 기법을 소개하고자 한다.
앙상블 러닝 회귀법(ELQ)은 K19에서 위성 고도계(satellite altimetry) 데이터를 이용하여 하천 유출량을 머신러닝 기법으로 산출한 것으로써, 기존 하천 유출량 계산 방법보다 더욱 정확한 결과를 보였다. 본 장에서는 ELQ에 적용된 앙상블 러닝(ensemble learning, EL)에 대해 간략히 소개한다.
EL은 다중 분류 시스템(multiple classifier system) 또는 위원회 결정 기반 학습(committee-based learning)이라고도 불리며, 어떠한 문제를 해결하기 위해 여러 모델을 훈련(train), 결합(combine)하여 보다 나은 모델을 만드는 과정이다(Zhou, 2021). EL은 머신러닝(machine learning, ML)의 한 방법이며, ML은 계산적인 방법에 의한 경험 학습을 통해 모델이나 시스템의 성능을 향상시키는 기법을 말한다(Zhou, 2021). 통상적으로 EL은 분류(classification)에 관한 문제에 많이 사용되지만 회귀(regression) 문제에도 사용될 수 있다.
앙상블 러닝은 통상적으로 기본 학습자(base learners) 생성 단계인 ensemble generation과 생성된 기본 학습자들을 결합하는 단계인 ensemble integration의 두 단계로 이루어진다(Zhou, 2015). 일부 문헌에서는 그 두 단계 사이에 기본 학습자들 중 일부를 필터링하는 단계인 ensemble pruning을 넣기도 한다(Mendes-Moreira et al., 2012). 앙상블 러닝의 과정을 살펴보면 Fig. 1과 같다. Fig. 1에서 보는 바와 같이 1단계 앙상블 생성 단계는 다수의 기본 학습자(base learners or candidate functions,
이 단계에서 학습자들은 동종 학습자(homogeneous functions) 또는 이종 학습자(heterogeneous functions)로 나누어지고, 이는 데이터를 훈련시키기 위해 각각 같은 모델 또는 다른 모델을 사용한다. 예를 들면, 유출량을 구하기 위해 H-Q relationship 단일 모델을 사용할 수 도 있지만, We-Q 및 S-Q relationships 등 여러 모델을 사용하여 유출량을 구할 수도 있다. 일반적으로 이종의 다양한 앙상블 후보 학습자(ensemble candidates)를 사용하는 것이 앙상블 러닝의 성능을 향상시키지만(Margineantu and Dietterich, 1997), 이종의 predictors를 얻는 것이 현실적으로 어려울 경우도 있다. 예를 들면, 2006년에 발사된 Advanced Land Observing Satellite (ALOS) Phased Array type Lband SyntheticAperture Radar (PALSAR)의 경우, 재방문 주기(repeat cycle)가 46일로 비교적 긴 편이며, 이를 이용하여 만든We의 시간 해상도는 상대적으로 낮을 수 밖에 없다. 반면, 2008년에 발사된 Jason-2의 경우에는 궤도주기(orbiting cycle)가 10일로 상대적으로 짧기 때문에 시간 해상도가 비교적 높다고 할 수 있다.
한편, 최근 핀란드 국적의 지구관측 위성회사인 ICEYE의 경우, 2023년 6월까지 27기의 X-band Synthetic Aperture Radar (SAR) 위성을 쏘아 올렸으며, 같은 해 11월 4기의 SAR 위성을 발사함으로써 2018년부터 현재까지 31기의 SAR 위성을 운용중으로, 상대적으로 더 높은 1–22일의 재방문 주기를 가진다(https://earth.esa.int/eogateway/missions/iceye). ICEYE의 3세대 위성군인 4기의 위성은 50 cm급의 공간해상도를 얻을 수 있는 spot fine 모드와 지상변화를 거의 실시간으로 파악할 수 있는 dwell 모드르 갖춘 것으로 알려져 있다. 따라서 ICEYE의 소형 SAR 군집 위성군을 활용하면 하천 유출량 예측을 위한 이종 데이터인We 및 S 등을 좀 더 조밀한 시간 간격으로 얻을 수 있을 것으로 예상된다.
ELQ 관련 연구(K19–K21)에서는 하천 유출량을 예측하기 위한 기본 학습자로써 AHG경험 멱함수 중 식(3), 즉 하천 수위(깊이)와 유출량 관계 곡선을 사용했다(H-Q rating curve). 이 때 하천 수위를 얻기 위해 위성 고도계(radar altimetry) 데이터가 사용되었다. 위성 고도계 관련 연구 역시 한국의 원격탐사 연구에서 다소 생소한 분야로써, 2025년 1월 기준 대한원격탐사학회(https://www.kjrs.org/main.html)에서 검색어로 altimetry를 입력한 결과 총 3건의 연구논문과 1건의 리뷰 논문이 검색되었다. 관련논문은 해수면 변화(Hwang et al., 2021), 해양 에디 경계 변화 관측(Kim et al., 2024), 북극 융빙호(melt ponds) 탐지(Kim et al., 2021), 원격탐사에서 지하수 수자원 적용 사례 관련 리뷰(Lee, 2017) 등 4건이었다.
위성 고도계는 보통의 위성이 취득하는 영상과 달리 1차원적인 고도 데이터를 취득한다. 실제로 취득하는 데이터는 위성에서 발사된 펄스가 지표면(통상적으로 수표면)을 맞고 되돌아오는 지연 시간(time delay)을 측정한다. 지연 시간이 측정되면 위성과 수표면과의 거리를 측정할 수 있고, 수위는 위성의 reference ellipsoid 고도에서 여러가지 보정과정을 거쳐 구해진다. 세계 최초의 위성 고도계는 1973년에 발사된 미국NASA의 Skylab이며, 1993년 TOPEX/Poseidon 위성이 발사된 이후 부터 고도계 자료를 활용한 해수면 높이 관측이 활발해지기 시작했다(Hwang et al., 2023; Lee et al., 2009). 그 이후 많은 위성 고도계가 발사되면서 성능이 향상되었다. 현재 운용 중인 위성 고도계는 Jason-3 등을 비롯하여 총 10개이다(https://www.aviso.altimetry.fr/en/missions/current-missions.html). ELQ 관련 연구에서는 콩고강을 지나는 Envisat radar altimetry (K19/K21, 2002년~2010년) 데이터와 메콩강을 지나는 Envisat radar altimetry (K20, 2002년~2010년) 및 Jason-2 radar altimetry (K20, 2008년~2016년) 데이터를 사용했다. Envisat은 2002년 3월 1일에 발사되었으며 ERS-1과 ERS-2를 후속하여 발사된 위성 고도계이며 35일의 repeat cycle을 가지고 Jason-2는 TOPEX/Poseidon과 Jason-1을 후속하여 발사된 위성 고도계로써 10일의 repeat cycle을 가진다(K20). Envisat의 경우Geophysical Data Record (GDR)18 Hz 자료를, Jason-2의 경우 GDR 20 Hz 자료를 각각 사용했다. 위성 고도계에서 반사된 펄스를 처리하기 위해 retracking 모델이 사용되는데, 이 때 내륙지방에 가장 적합하다고 알려진 ICE-1 retracking algorithm을 사용했다(Kim et al., 2017a; Yuan et al., 2017; Frappart et al., 2006).
최근 수십 년간 원격 탐사 수문학이 발전하게 되면서 하천 유출량을 정확하게 예측하고자 하는 수요에 부응하여 많은 기법들이 소개되었다(Durand et al., 2016; Bogning et al., 2018; Jung et al., 2010; Sichangi et al., 2016; Gleason and Smith, 2014; Gleason et al., 2014). 그러나 이러한 방법들은 서론에서 소개한 바와 같이 원격탐사 데이터를 사용 하지만, 기존의 대표적인 방법인 AHG와Manning’s equation을 사용한 방법이었다(Tarpanelli et al., 2013; 2017; Huang et al., 2018; Paris et al., 2016).
한편, ELQ 기법은 원격탐사 데이터인 위성 고도계 데이터와 기존 방법인 AHG를 사용하면서 기존 방법과 대별되는 방법을 사용했다. 기존 방법과 다른 두 가지 특징은 첫째, 기존 방법은 단일식이나 변수들의 곱을 통해 유출량을 구한 반면, ELQ 기법은ML의 한 방법인 앙상블 러닝을 이용하여 유출량을 구한다. 둘째, 기존 방법은 공간적으로 동일한 한 개의 지역의 수리변수들와 데이터를 이용하여 유출량을 구했다면, ELQ는 공간적으로 멀리 떨어진, 즉, 수백 km떨어진 몇 개 지점들의 데이터를 결합하여 모델의 성능을 향상시킨다.
앙상블 러닝 회귀 모델의 기본 학습자는 식(3)을 변형하여 구해진다. 식(3) d = c · Qh에서 d는 하천의 깊이, c와 h는 경험상수, Q는 하천 유출량을 나타낸다. 이 때, 하천의 깊이는 위성고도계로 측정이 직접적으로 불가능하며, 위성 고도계로 측정 가능한 것은 하천의 상대적인 높이(H)다. 따라서 K19에서는 위성 고도계를 통해 각 virtual station (VS)에서 얻어진 높이(altimetry-derived H)를 이용하여 하천의 깊이를 추정하였다. 세부적인 추정 방법은 K19를 참조 바란다. 위성 고도계 데이터를 통해 하천 깊이(d)를 추정하면 식(3) d = c · Qh을 Q에 대한 식으로 나타낼 수 있고, 이는 식(6)과 같다.
여기서
앙상블 러닝 회귀 모델은 이론적으로 n개의 기본 학습자를 가질 수 있으나 과적합 등을 고려하여 3개의 후보 학습자를 이용하였고, 식(7)과 같이 기본 학습자를 결합하였다(K19).
여기서 fELQ는 최종 앙상블 러닝 회귀 모델이며,
K19에서는 2006년부터 2010년까지 Envisat 위성고도계 데이터와 Congo Basin에서 유지되고 있는 in-situ station 중의 하나인 Brazzaville 유량 게이지의 in-situ Q 데이터를 먼저 ELQ를 통해 훈련 시킨 후(2002년 11월~2006년 11월), ELQ의 예측 값을 2006년 12월부터 2010년 9월까지의 기간 동안 검증하였고, 그 결과 root-mean-square error (RMSE)는 기존 AHG 모델 대비 약 823 m3s–1만큼 감소하였으며, relative RMSE (RRMSE)는 약 2.08% 감소하였다. 이 때, ELQ의 기본 학습자는 콩고강의 본류에 위치한 9개의 VSs에서 추출된 높이 데이터를 사용했다. Fig. 2에서 보는 바와 같이 예측하고자 하는 Brazzaville station에서 최소 수십 km에서 500–600 km이상 떨어진 지역의VS 데이터를 사용했다. 이것은 원격탐사 수문학에서 처음 시도되었으며, Irrgang et al. (2020)은 원격탐사 수문학에서 ELQ (K19)가 최초로 머신러닝과 위성고도계 데이터를 결합하여 기존 방법보다 성능 향상을 가져왔다고 평가했다. 이러한 사실은 ELQ가 단지 머신러닝 기법을 원격탐사 수문학에 적용한 것을 넘어서서, 기존의 하천 유출량 예측 패러다임을 결정적으로 변화시킨 것에 더 큰 의미가 있다.
즉, 기존에는 AHG 또는 downstreamhydraulic geometry (DHG)의 단일 관계에 의해 하천 유출량을 계산했다. DHG란 관측된 수리변수들과 하류 방향으로 떨어진 유출량의 관계가 식(2–4)와 같이 성립하는 수리 기하학적인 관계를 의미한다(Chow, 1959; Jung et al., 2013; Lee and Yoo, 2024). 한편, DHG의 관계에서도 통상적으로 수 십 km 내에 있는 수리 변수들을 획득하여 하천 유출량을 산정하였으나, K19에서는 수 백 km이상 공간적으로 이격된DHG를 기본 학습자로하여 세 개의 다른 DHG를 선형적으로 결합하여 유출량을 예측한 것은 매우 이례적인 사례로 평가되며, 이러한 새로운 기법으로 하천 유출량 예측 정확도를 향상시켰다.
K19에서 ELQ 기법을 소개한 후, K20과 K21에서 ELQ에 대한 응용이 이루어졌다. 먼저 K20에서는 ELQ를 메콩강 일대에 적용시켰다. 메콩강은 세계에서 12번째로 긴 강이며, 동남아시아에서 가장 큰 강 유역으로써, 특히 메콩 삼각주(Mekong Delta) 지역은 메콩강 유역에서 가장 인구가 많은 지역 중의 하나로 약 1,600만 명의 인구가 살고 있으며, 이는 메콩강 유역에 살고 있는 인구의 약 23%를 차지한다(Chang et al., 2020).
한편, 앞서 서론에서 밝힌 바와 같이, 공유 하천의 경우에는 수자원에 대한 주변 국가들의 이익이 상충되는 경우가 많다. Fig. 3에서 보는 바와 같이, 메콩강 유역은 6개의 나라(중국, 미얀마, 라오스, 태국, 캄보디아, 베트남)의 국경을 지나고 있다. 따라서 현장 게이지가 운영되더라도 그 데이터를 획득하기 어려울 경우가 있다. 또한, 메콩강 하류 유역(LowerMekong River Basin, LMRB)은 TSL의 수문학적 복잡성으로 인해 하천 유출량을 더욱 예측하기 힘들다. LMRB에 위치한 TSL은 1년 내내 호수인 지역과 seasonally flooded areas로 이루어지는 floodplain으로 둘러싸여 있다. 호수의 면적은 건기(11월~3월)에는 길이 120 km, 폭 35 km로 약 2,500 km2의 면적을 보이는 반면, 우기(5월~10월)에는 길이 250 km, 폭 100 km로 약 17,500 km2의 면적을 보인다(Cambell et al., 2009). 메콩강의 TSL의 흐름은 일명 flow reversal로 불리는데, 우기가 끝나갈 무렵인 9월~10월에 메콩강의 수위가 낮아지면, 우기동안 floodplain에 저장된 물은 호수에서 메콩강 하류 삼각주 지역으로 흐르고, 건기가 끝날 무렵인 5-6월 부터 비가 내리기 시작하면서 메콩강의 수위가 상승하고, 이내 강의 흐름이 역류하여 물은 TSL로 흘러간다(Olson and Morton, 2018). 이러한 TSL의 flow reversal은 메콩강 유역의 주민들에게는 우기 동안에 홍수 피해를 감소시키고, 건기 동안에는 농업용으로 사용할 수 있는 관개용수 제공과 함께 메콩 삼각주 아래의 바닷물이 메콩 삼각주로 침투하는 정도를 완화시키는 등 지역 주민에게 많은 이점을 제공하지만, 동시에 메콩강의 유출량을 예측하는데 있어 복잡성을 증가시키고, 따라서 고해상도의 hydrodynamicmodel을 필요로 할 수 있다(Mekong River Commission, 2009).
K20에서는 K19에서 개발된 ELQ를 기본으로 메콩강에 적용시켜 보다 정확한 하천 유출량을 계산하였다. K20에서 사용된 in-situQ 데이터는 Stung Treng, Kratie, Tan Chau 세 곳에서 획득하였으며, 기본 학습자는 Envisat altimetry (2002–2010년 시기)와 Jason-2 altiemtry (2008–2016년 시기) 데이터를 사용했다. 이러한 Multi-mission 위성 고도계 데이터를 사용할 때 장점은 비교적 장기간에 대해서 미계측 유역의 하천 유출량을 산정할 수 있다는 점이다. 그리고 Tan Chau의 경우, in-situ Q 데이터는 2003–2006년, 2013–2016년에 대해 획득한 상태로 2007–2012년까지 6년의 기간 동안에는 미계측 구간으로 남아있다. 이렇게 현장 게이지의 운영이 일시적으로 중단된 경우, ELQ 기법을 사용하면, 하천 유출량의 예측 정확도를 보다 효과적으로 향상시킬 수 있다.
또한 TSL로 인한 메콩강의 수문학적 복잡성 때문에 세 개의 in-situ Q station 중 가장 하류에 위치하고 있는 Tan Chau에서의 하천 유출량 예측(2003-2006년)에서 단일AHG에 의한 유출량은Nash-Sutcliffe Efficiency (NSE) 기준 0.84/0.83 (training/validation)을 보였지만, ELQ 기법을 사용한 예측은 NSE 0.97/0.96 (training/validation)을 보였다.
한편, K20에서 TSL보다 고위도에 위치하고 있는 Stung Treng과 Kratie에서는 기존 모델과 ELQ 기법과의 성능차이는 미미했다. 상대적으로 성능이 좋지 않은 ELQ 결과는 바로 기본 학습자의 다양성(diversity) 부족에서 기인한다(Zhou, 2009; Brown et al., 2005a). 즉, 기본 학습자의 상관관계(correlation coefficient, r)가 증가하면, 기본 학습자의 다양성은 감소하므로, ELQ의 결과에 부정적인 영향을 미친다. 한편 Tan Chau에서는 일반적으로 ELQ 결과가 AHG 모델보다 우수한데, 이것 또한 기본 학습자의 다양성과 관련이 있다.
일반적으로 ELQ 기법은 in-situ Q 데이터가 존재하는 하천 유역에서 기본 학습자를 학습하고, 그것들을 결합시켜 ELQ를 생성하였다. K21에서는 in-situ Q가 존재하지 않거나, 여러가지 사유로 인해 현장 게이지가 작동하지 않을 경우에 ELQ 기법을 사용하여 하천 유출량 정확도를 향상시켰다. K21 또한 콩고강 유역을 연구지역으로 하였고, 수리 수문 모델인 Hillslope River Routing (HRR)을 사용하여 HRR-derived Q를 구한 후, Envisat 위성 고도계 데이터와 함께 훈련시켜 ELQ 모델을 생성하였다. 기존에 원격탐사 데이터와 수문모델 등을 사용하여 콩고강 유역을 연구한 몇몇 논문에서 유출량 정확도는 RRMSE 기준 약 12.2-37.2%였다(Nijssen et al., 2001; Beighley et al., 2011; Sichangi et al., 2016). 그 중 Sichangi et al. (2016)은 in-situ Q 데이터를 사용하여 RRMSE 12.2%의 정확도를 보였고, in-situQ데이터를 사용하지 않았을 경우에는 약 20-40% 안팎의 RRMSE를 보였다.
미계측 유역의 하천은 세 가지로 정의될 수 있는데, 첫째는 완전히 계측되지 않은 순수한 미계측 유역의 하천, 둘째, 현장 게이지가 과거에는 설치되어 있었으나 예산부족 등 여러가지 사유로 더 이상 운영되지 않거나(Shiklomanov et al., 2002), 셋째, 기계적 결함이나 오류로 인해 현장 게이지가 일시적으로 중단되어 계측을 하지 못한 경우(Loukas and Vasiliades, 2014) 등으로 나뉜다. K21에서는 세 가지 경우 중 둘째와 셋째의 경우 Q를 예측하는 것을 목표로 하였다. K21에서는 Kinshasa에서의 현장 게이지가 1990년 이후 운영을 중단했다고 가정하고, 이후 하천 유출량을 예측한다. 단, Kinshasa의 현장 게이지 데이터는 1990년 이후에도 획득이 가능하나 K21에서는 사용되지 않았다. 따라서 ELQ의 기본 학습자는 HRR-derived Q를 사용하여 얻었다. 한편, K19와 K21에서 앙상블 결합은 조금 다른 방식으로 이루어졌다. K19에서는 기본 학습자들의 결합 과정 간에 in-situ Q와 estimated Q의 차이를 최소화하는 학습 과정을 거치게 되며, 이 과정을 통해 각 기본 학습자의 가중치가 각각 결정되었다. 그러나 K21에서는 각각의 기본 학습자의 가중치를 동일하게 하는 방식인 Basic EnsembleMethod (BEM)를 식(8)과 같이 적용했다.
여기서 fBEM은 basic ensemble function이며,
K21에서 현장 게이지 데이터와 비교한 HRR에서 얻어진 하천 유출량의 정확도는 RRMSE 기준, 약 15.72/18.00% (training/validation)의 정확도를 보인 반면, ELQ에서 얻은 가장 성능이 좋은 유출량의 정확도는 약 9.89/6.34% (training/validation)였다. 따라서, 기존 in-situ Q 데이터를 사용하지 않은 하천 유출량 예측에 비해서 상당히 향상된 성능을 보여 주었다. 이는 근본적으로 ELQ가 단일 학습자보다 여러 학습자를 결합함으로써 부가적인 정보와 데이터를 결합함으로써 성능을 향상시키고, 실제로 원격탐사에서는 위성에서 얻어진 데이터에서 결측치가 발생하는 경우도 있기 때문에, 시공간상 다른 데이터를 결합하여 보다 정확한 예측치를 얻을 수 있기 때문이다.
앙상블 러닝은 앞서 말한 바와 같이 어떠한 문제를 해결하기 위해 여러 모델을 학습시켜 생성하고 그것들을 결합하는 일련의 방법을 말한다(Zhou, 2021). 여기서 어떠한 문제란 통상적으로 분류(classification) 또는 회귀(regression) 문제를 말한다. 또한, Zhou (2012)는 앙상블 기법이란 여러 학습자를 훈련시키고, 대표적으로 Boosting과 Bagging 등으로 대표되는 결합 방식 등을 사용하는 머신러닝의 한 방법이라고 설명했다. 따라서 앙상블 러닝의 생성과 결합에서 대두되는 두 가 지 이슈 중 첫 번째는, ‘어떠한 문제를 해결한 것인가?’이고, 두 번째는 ‘어떠한 방식으로 결합할 것인가?’이다.
앙상블 러닝은 Fig. 1과 같이 다수의 기본 학습자를 생성한 다음, 특정 결합 방식을 이용하여 그들을 결합한다. 앙상블 러닝은 단일 학습자에 의한 결과보다 나은 결과를 가져다 준다. 왜일까? 직관적으로 생각하면, 여러 다른 특성을 가진 것을 섞으면 그 결과는 최악의 것보다는 낫지만, 최고의 것보다는 더 안 좋은 결과를 가져온다(Zhou, 2021). Fig. 4는 앙상블 기법의 여러가지 예를 나타낸 것이다. 예시는 Zhou (2021)의 예를 이해하기 쉽게 국어, 수학, 영어의 예로 재구성하였다. 우리는 Alex, Brian 그리고 Cyril 3명의 학습자 또는 분류기(classifier)가 있다. 그 분류기는 각각 이진(binary) 분류를 실시한다. 즉 국어, 영어, 수학 과목에 대해 통과(O) 또는 낙제(X)를 할 수 있다. 여기서 앙상블 분류(classification of EL)는 투표(voting)를 통해 결정된다. 즉 3명 중 다수의 사람이 통과하면 그 과목에서 통과를 하는 것이고, 다수의 사람이 낙제를 하면 그 과목에서 낙제를 하는 것이다. Fig. 4 (Case #1)에서 보면 각각의 분류기는 약 66.6%의 성공률을 갖는 반면 앙상블은 100%의 성공률을 보인다. Fig. 4 (Case #2)에서는 각각의 분류기는 Fig. 4 (Case #1)와 동일한 성공율을 보이지만 각각의 분류기가 정확히 일치하므로, 앙상블 또한 66.6%의 성공률을 보이기 때문에 앙상블은 개별 분류기에 비해 전혀 도움이 되지 않는다. Fig. 4 (Case #3)에서는 각각의 분류기는 33.3%의 성공률을 보이지만, 앙상블은 이보다 더 나빠져 0%의 성공률을 보인다(Zhou, 2021). 이러한 예는 개별 학습자들(individual learners)이 ‘정확하고 다양해야(accurate and diverse)’ 개별 학습자들의 앙상블이 좋은 결과를 가져다 준다는 것을 알 수 있다(Zhou, 2021).
이처럼 여러 학습자를 결합시키는 경우, 앙상블의 능력은 개별 분류기의 일반화 능력보다 훨씬 강한 경우가 많으며, 이는 특히 weak learners (약한 학습자)가 결합할 때 훨씬 더 능력이 강해지는 경우가 많다(Zhou, 2021). 예를 들면, Freund and Schapire (1995)는 Adaptive Boosting (AdaBoost)이라는 meta-learning 알고리즘을 개발했는데, 이는 다수의 weak learners를 결합하여 강한 학습자(strong learner)를 만드는 앙상블 기법이다. Weak learner (boosting)라는 용어는 머신러닝에서 다수 분류기를 이용하여 오차를 줄이는 EL 기법의 하나로써 Kearns and Valiant (1988; 1989)가 ‘weak learnability’라는 개념을 처음 발표하면서 알려졌다. 그 이후 다수의 연구자들에 의해 boosting이 개발되었고, 그 대표적인 알고리즘이 AdaBoost이다(Freund and Schapire, 1995).
AdaBoost 알고리즘의 작동 개념에 대한 예가 Fig. 5와 Fig. 6에 설명되어 있다. 이 경우, 우리는 10개의 샘플을 -1 또는 +1로 분류하려고 한다. 편의상 –1과 +1은 숫자를 생략하고 부호로만 나타내기로 한다. 먼저 하나의 weak learner는 샘플들을 수직선이나 수평선을 이용하여 그 선의 왼쪽이나 오른쪽 또는 위나 아래를 (+) 또는 (–)로 분류한다. Fig. 5에서 각 행(row)의 그림은 시간(또는 라운드) t=1, 2, 3일 때의 분류를 나타낸다. 회색 영역은 가설(ht)에 의해 예측된 양(+)의 영역을 나타내고, 각 학습 라운드(Dt)에서 잘못 분류된 샘플을 원으로 표기했다. 각 샘플의 크기는 Dt에서 각각의 가중치를 나타낸다. Fig. 6는 각각의 라운드에서 얻어진 결과를 바탕으로 AdaBoost 알고리즘을 개념적으로 나타낸 그림이다. 그림에서 보는 바와 같이, 어떠한 단일 수직선 또는 수평선도 샘플을 완벽하게 분류하지 못하지만, AdaBoost는 3번의 반복(iteration)을 통해 양(positive)과 음(negative)으로 완벽히 분류할 수 있다.
이 때 약한 학습자인 ht는 weak function으로 나타내면 다음의 ht: X → {–1, +1}과 같다. 그리고 최초 훈련 데이터는 10개의 샘플로 (x1, y1), (x2, y2), …, (x10, y10)이며, xi, yi는 X평면(input space)에 포함되어 있고, 이것들은 label set (output space)인 Y={–1, +1}로 분류된다. 첫 번째 라운드(D1)의 경우에는 샘플의 크기가 같고, 이는 모든 샘플의 가중치가 같다는 것을 나타낸다. 이 때 첫 번째 약한 학습자인 h1이 수직 선으로 그어지면서 왼쪽을 양(+), 오른쪽을 음(–)으로 분류한다. 결과적으로 잘못 분류된 샘플들이 발견된다. 두 번째 라운드(D2)에서는 잘못 분류된 샘플들이 커지고(가중치가 높아짐), 제대로 분류된 샘플들은 작아진다(가중치가 작아짐). 그리고 두 번째 약한 학습자인 h2 수직선이 그어지고 세 개의 잘못된 샘플들을 찾는다. 마지막 라운드(D3)에서는 세 번째 약한 학습자인 h3 수평선이 그어지고, 전 단계에서 잘못 분류되었던 세 개의 샘플들을 올바르게 분류한다. 종합 하면, 이렇게 각 라운드에서 AdaBoost는 약한 학습자인 ht를 잘못 분류된 샘플을 고려한 가중치 αt를 이용하여 훈련시킨다. 그러면 최종적으로 다수의 약한 학습자 ht와 가중치 αt가 강한 분류기인 H(x)를 만들어 내며 이는 식(9)로 나타낼 수 있다.
이 때 AdaBoost 알고리즘은 Fig. 5에서 보는 바와 같이 적응적(adaptive)이다. 즉 약한 학습자는 회차를 반복하면서 가중치에 의해 업데이트 된다. 개념적으로 ELQ의 결합 알고리즘을 Adaboost 알고리즘의 형태로 나타내면, ELQ는 약한 학습자(weak learners)인 다수의 rating curves로 구성된 기본 학습자들이 여러 회차를 반복해서 가중치를 구하는 대신, 다수의 rating curves가 단일회차로 최소제곱법(least squares)을 통해 가중치를 구하여 약한 학습자를 결합하는 방식으로 설명할 수 있다(Kim et al., 2017b). 다만, 이러한 설명의 한계로써, AdaBoost는 통상적으로 분류(classification)의 문제이고, ELQ는 회귀(regression)의 문제이므로 weak learners 또는 base learners에 대한 생성 및 결합방식에 대한 접근법과 설명은 정확히 일치하지 않으며, 따라서 분류와 회귀에 대한 앙상블 기법은 다소 독립적으로 발전되어왔다(Mendes-Moreira et al., 2012).
ELQ는 식(7)과 같이 기본 학습자의 결합 방식으로 가중평균방식을 사용한다. 이는 다중선형회귀(multiple linear regression ormultivariate linear regression, MLR)와 비슷하지만 다른 특성을 갖는다. MLR은 종속변수(dependent variable)와 독립변수(independent variable) 사이에 다음과 같은 관계가 성립한다.
여기서 y는 종속변수, x는 독립변수, β는MLR의 계수이며, ε은 오차항을 말한다. i와 j는 각각 관측수와 설명변수(explanatory variables)의 개수를 말한다. 식(10)을 벡터형태로 나타내면 Y = Xβ + ε로 나타낼 수 있고, 이를 다시 행렬 형태로 나타내면 식(11)과 같이 나타낼 수 있다.
계수벡터인 β를 구하기 위해 최소제곱법을 이용하면 식(12)와 같이 mean squared error (MSE)를 최소화하는 값을 구할 수 있다.
따라서 β는 식(13)에 의해 구할 수 있다.
따라서
MLR과 EL은 모두 예측 모델링에 사용되지만MLR은 하나의 종속변수를 다수의 독립변수의 선형 조합으로 독립변수(설명변수)의 계수를 구하는 방법이다. 반면, EL은 여러 개의 개별 모델을 별도로 훈련시킨 다음 다수의 모델들을 결합시켜 더 나은 모델을 만드는 머신러닝 기법 중 하나이다. 두 방식의 차이점 중 하나는 MLR의 계수의 크기는 각 독립변수의 설명력과 전혀 관계가 없다는 것이고, MLR의 계수의 합 또한 임의적(arbitrary)이라는 것이다. 예를 들면 식(7)에서 ELQ의 가중치의 합은 1이 되어, 각각의 가중치는 각 모델들의 설명력을 표현해 주지만MLR의 경우 계수는 전체 모델에서 각 변수가 어떤 기여를 하는지 설명하지 못한다. 즉 MLR은 단일 모델이라고 볼 수 있고, EL은 다수 모델의 결합이라고 볼 수 있다.
Zhou (2021)가 말한 것처럼 EL의 성능은 정확성과 다양성에 기반을 둔다. 그렇다면 ‘ELQ의 정확성과 다양성은 어떻게 측정될 수 있는가?’가 궁금할 것이다. ELQ를 최초 개발한 K19에서는 성능을 보장하는 지표로써 보상정도(degree of compensation, IDoC)라는 것을 제시했다. 보상정도는 IDoC = (1 – rmn)으로 정의된다. 여기서 r은 상관계수(correlation coefficient)이며, m과 n은 결합된 VSs의 조합번호를 말한다. 다시 말해, 보상정도는 1에서 두 기본 학습자의 상관관계를 뺀 값이다. 즉, 두 기본 학습자의 상관관계가 높을수록 IDoC는 작아져서 성능향상 또한 작아지고, 반대로 두 기본 학습자의 상관관계가 작을 수록 IDoC는 커져서 성능향상이 커진다.
제시된 보상정도 지표 개발의 이론적 토대는 바로 편향-분산 분해(bias-variance decomposition)이다(Krogh and Vedelsby, 1995; Brown et al., 2005b; Kim, 2019). 이론적으로 앙상블의 일반화 오차(generalization error of ensemble)는 두 가지 항, 분산(variance)과 편향의 제곱(squared bias) 항으로 나눌 수 있으며, 식(15)와 같이 나타낼 수 있다.
여기서 (fELQ – Q)는 ELQ 예측값과 관측된 유출량의 차이이며, j는 후보 앙상블 함수의 수이다. 식(15) 등식의 왼쪽 항(편향의 제곱)은 각각의 후보 앙상블 함수의 오차의 제곱을 가중 평균한 합(sum of weighted squared errors of the individual candidate ensemble function) 이고, 등식의 오른쪽 첫째 항(분산)은 개별 후보 앙상블 함수와 최종 앙상블 함수 사이의 오차의 제곱을 가중 평균한 합(sum of weighted squared errors between the individual candidate ensemble function and final ensemble function)이다. 여기에서 후자를 ensemble ambiguity 라고 한다(Krogh and Vedelsby, 1995). 식(15)를 보면, 편향과 분산의 tradeoff를 발견할 수 있다. 예를 들면, fELQ의 편향이 크면, 식(15)에서 분산항(ensemble ambiguity)이 작아진다. Ensemble ambiguity가 작아진다는 것은 비슷한 함수들이 앙상블에 추가된다고 해도, 추가되는 함수들이 더 이상 앙상블의 성능 향상에 영향을 미치지 못하는 것을 의미한다. 즉, 분산항이 0에 가까워지면, ELQ의 오차는 개별 후보함수들의 오차의 제곱의 가중평균과 같아지므로 ELQ의 성능향상을 기대하기 어렵다(Krogh and Vedelsby, 1995). 따라서 ELQ의 앙상블 후보함수들 중에서 유사성을 판단하는 기준이 바로 보상정도가 되는 것이다.
후보함수들의 다양성과 더불어 고려해야 할 것은 개별 함수들의 정확성이다. EL이 weak learners에 기반한다고 해도 개별 학습자들의 정확성이 크다면, 그 앙상블도 더욱 정확할 가능성이 높다. 따라서 K21에서는 기본 학습자의 힘(power of base learner, PBL)이라는 지표를 도입했다. PBL은 fELQ에서 결합된 개별 학습자들의 NSE 평균으로 정의된다. K21에서는 PBL이 클수록 하천 유출량 예측성능이 좋았다. 한편, K21에서는 fBEM을 사용했기 때문에 각 개별학습자들의 가중치는 모두 동일했으나, 다수의 fBEM을 평균함으로써 fBEM이 fELQ와 같이 다른 가중치를 갖는 함수로 전환됨을 확인하였다. 즉, 다수의 fBEM을 평균한 함수는 fBEM의 앙상블 평균(ensemblemean of fBEM)이라고K21에서 정의하였으며, 그것은 다시 fELQ의 형식으로 전환된다.
여기서
앙상블은 개별 학습자보다 일반적으로 뛰어나고 그 성능은 정확도와 다양성에 의해 결정된다. 미계측 유역의 하천 유출량을 산정하는 알고리즘으로 ELQ가 K19에서 소개되었으며, K20과 K21에서 ELQ가 응용되어 적용되었다. 이러한 ELQ 논문 세 편을 인용한 국제논문은 24년 11월까지 76편의 논문에 94회 인용되었다. 본 장에서는 ELQ 논문을 인용한 논문에 대해서 간략히 언급하고, 그에 따라 ELQ가 원격탐사 수문학에 어떠한 기여를 했으며, ELQ가 갖는 수문학적 의의에 대해 고찰한다.
ELQ(K19)는 원격탐사 관련 저널 중 최고의 권위를 갖고 있는 저널 중 하나인 Remote Sensing of Environment에 2019년 처음 게재되었다. 그 이후 Envisat과 Jason-2의 다중 위성 고도계 미션을 이용하여 메콩강에 적용한 논문인 K20이 Remote Sensing에 2019년 11월에 게재되었다. 또한, 수문학 모델인 HRR과 위성 고도계를 이용하여 콩고강에 적용하여 in-situ Q의 도움없이 유출량을 산정한 논문인 K21은 Advances in Space Research 논문에 게재되었다. 이와 같이 ELQ 관련 세 편의 논문은 2019년 이후 총 76편의 국제 논문에서 94회 인용되었으며, 우리는 Google Scholar와 ResearchGate를 통해 ELQ관련 논문 인용을 확인하고 분석했다. 총 94회의 인용 횟수 중 K19가 60회, K20은 18회, K21은 16회 인용되었다. 각 저널에 인용된 횟수는 Table 2와 같다. ELQ 관련 논문은 각각 원격탐사, 지구물리학, 환경과학 및 컴퓨터 과학 등 폭 넓은 분야의 국제논문으로부터 인용되었다.
Table 2 List of included journals and the corresponding count of citations
Journal Title | Subject Area | Count |
---|---|---|
Remote Sensing | Remote Sensing | 11 |
Remote Sensing of Environment | Remote Sensing | 1 |
IEEE Journal of Selected Topics in Applied Earth Observations and | Remote Sensing | 1 |
International Journal of Applied Earth Observation and Geoinformation | Remote Sensing | 2 |
Remote Sensing Application: Society and Environment | Remote Sensing | 1 |
International Journal of Digital Earth | Remote Sensing | 1 |
Water | Water | 1 |
Water Resources Management | Water | 1 |
Reviews of Geophysics | Geophysics | 1 |
Geophysical Research Letters | Geophysics | 2 |
Science of The Total Environment | Environmental Sciences | 1 |
Water Resources Research | Environmental Sciences | 1 |
Journal of Hydrology | Environmental Sciences | 5 |
Hydrologic Sciences Journal | Environmental Sciences | 3 |
Environmental Modelling & Software | Environmental Sciences | 2 |
Advances in Space Research | Earth and Planetary Sciences | 2 |
Artificial Intelligence Review | Computer Sciences | 1 |
Not Included | N/A | 57 |
Total | 94 |
ELQ 논문들을 인용한 76편의 논문들을 인용 주제별로 묶으면 크게 다섯 개의 주제로 나눌 수 있다. 그 다섯 개의 주제는 ① 일반 주제, ② 머신러닝 및 앙상블 러닝, ③ 원격탐사 방법이나 머신러닝 방법을 이용한 수리변수의 도출, ④ 머신러닝 방법을 이용한 하천 유출량의 예측, ⑤ ELQ이다. 이러한 주제들은 Table 3에 나타나 있다. 일반사항 및 물 전략 분야에 7편의 논문, ML/EL에 관한 분야에서 10편의 논문, 수리변수 예측 및 하천 유출량 예측 분야에 각각 31편, 19편 그리고 논문에 ELQ를 직접적으로 언급한 수리·수문학 분야 논문 등이 9편이었다.
Table 3 Research areas and the corresponding count of citations
Research Area | Count |
---|---|
General / Water strategy | 7 |
ML / EL | 10 |
Inferring hydrological variables using RS and/or ML/EL | 31 |
ML technique to estimate discharge | 19 |
ELQ | 9 |
Total | 76 |
ELQ 논문들은 수리·수문학 분야에서 많이 인용되었는데, 앞서 언급한 바와 같이 Irrgang et al. (2020)은 논문에 하천 유출량 예측 기법으로 ELQ를 직접 언급하면서, ELQ (K19)가 최초로 머신러닝과 위성 고도계 데이터를 결합하여 기존 방법보다 우수한 결과를 내놓았다고 평가했다. Akpoti et al. (2024)은 아프리카 대륙의 하천 유출량에 대한 도전과 기회에 대한 논문에서 역시 ELQ를 언급하며, 기존 하천 유출량 예측 기법보다 향상된 방법을 제시했으며, 이러한 ELQ와 같은 기법은 SWOT 미션에서 수집된 데이터를 포함하여 향후 원격탐사 수문학에 많은 도움이 될 것으로 평가했다. Kechnit et al. (2024) 또한 ELQ를 언급하며, ELQ가 하도의 구조를 예측하고, 다양한 수리변수들을 결합하여 하천 유출량을 예측한다고 평가하였으며, 다른 몇몇 논문들도 ELQ를 언급하여 ELQ가 기존 방법과 대비되는 특징들을 기술했다(Garkoti and Kundapura, 2021; Dhote et al., 2021).
또한, 수리·수문학 분야에서 원격탐사 방법을 사용하여 수리변수들을 예측하는 연구논문(31편)에서 ELQ논문을 주로 인용했다. 그 중 하천의 바닥 등 하도 및 수중의 깊이와 모양을 추정하는 bathymetry 분야(Kwon et al., 2022; Gehring et al., 2022; Pôssa et al., 2020)에서 ELQ 논문이 인용되었으며, Bhuyian et al. (2020)은 bathymetry 분야의 연구에서 K19가 여러 위성 고도계를 결합함으로써 데이터의 시간 해상도에 대한 정밀도를 향상시켰다고 평가했다. 또한, ELQ 기법은 수리변수 중 하나인 Total Water Storage (TWS)의 변화(Gyawali et al., 2022; Wang et al., 2021; Yu et al., 2021; Sun et al., 2020), 수표면 면적 및 높이 변화(Chen et al., 2020; Markert et al., 2019; Carr et al., 2019; Li et al., 2023), 수문학 모델에 대한 검보정(Shastry et al., 2020), 기타 수리 변수들을 예측하는 리뷰 논문(Uereyen and Kuenzer, 2019; Chawla et al., 2020) 등에 인용되었다.
하천 유출량을 예측하는데 있어 ELQ기법을 머신러닝을 이용한 새로운 유출량 예측기법으로 평가하였는데, 그 중 Zounemat-Kermani et al. (2021)은 수문학 분야의 앙상블 러닝 패러다임이라는 제목의 리뷰 논문에서 ELQ (K19)를 EML 기법을 사용하여 기존의 방법보다 더 우수한 성능을 가진 알고리즘으로 소개하였다. 그리고 수문학에 적용된 EML 방법들을 언급하면서 앙상블 결합 방식에 따라 분류하였고, ELQ를 stacking 방법에 의한 앙상블 결합방식으로 분류하였다. 또한 원격탐사 데이터와 수문학 모델, 강우 데이터 등을 이용한 유출량 향상 등에 대한 논문들(Fok et al., 2021; 2023; Papacharalampous et al., 2023)에서 ELQ 논문을 이용했다.
여러가지 다양한 주제의 논문들에서 ML/EL 기법을 적용한 연구로 ELQ논문을 인용하였는데, 원격탐사를 통한 토양 염분 분류(Chen et al., 2024), 머신러닝 기법 중 boosting에 대한 연구(Kouadio et al., 2023) 등 다양한ML/EL 기법 연구(Naitam et al., 2023; Shahhosseini et al., 2022; Shi et al., 2020; Wang et al., 2020)에서도 ELQ관련 논문을 인용했다. 이러한 ELQ기법은 수리·수문학 뿐만 아니라 컴퓨터 과학 분야 논문에서도 인용되었는데 Artificial Intelligence Review에 게재된 Chen et al. (2024)의 논문에서는 단일 rating curve보다 다수의 rating curve를 결합하여 만든 ELQ의 성능에 대해 평가하며 imbalanced learning의 최신 연구동향 등을 제시하였다. 이 밖에 Lawford et al. (2023a; 2023b)은 물 전략 분야에 있어 공유하천의 경우에 다양한 국가를 지나가기 때문에 다중 고도계 사용이 유용하다고 판단했다.
원격탐사 수문학은 주로 위성에 의한 원격탐사 방법을 이용하여 수리·수문학 연구에 적용하는 학문으로써, 주로 앞서 언급한 수리학적 변수들을 결합할 때 그 변수들을 원격탐사로부터 획득한 데이터를 활용하여 하천 유출량 등을 산정하였다. 그 후 Gleason and Smith (2014)가AMHG기법을 사용하여 in-situQ데이터 없이도 하천 유출량을 산정하는 방법을 제안했다. 그러나 AMHG 기법은 in-situ Q 데이터를 사용하지 않은 만큼, 측정된 유출량과의 정확도는 약 20–30%의 차이가 있었으며, 주로 광학 영상에 의한 하천의 유효 폭을 관측 함으로써 유량에 따라 하천 폭의 변화가 작은 하천에 대해서는 부정확할 수 있다. 한편, K20에서는 메콩강에서 Stung Treng, Kratie, Tan Chau 세 곳에서 AMHG 기법에서 사용한 두 가지 변수의 관계(d = cQh: rating curve에서 log c와 h의 관계)를 그래프로 표현하였는데, 그 두 가지 변수의 결정계수는 0.94–0.98의 범위에 있었다. 이러한 높은 결정계수는 AMHG의 장점에도 불구하고, 하천 유출량의 정확도 향상에는 AMHG가 기여하는 바가 작다는 것을 의미한다.
ELQ(K19)가 원격탐사 수문학에 가장 큰 영향을 미친 것은 지리적으로 수 백 km 떨어진 지역의 위성 고도계 정보를 결합하여 한 지점의 하천 유출량을 더욱 정확하게 예측한다는 점이다. 이것은 Tobler의 지리학 제 1법칙(The first law of geography)에 정면으로 위배되는 논리로써, Tobler (1970)는 그의 논문에서 다음과 같이 말했다. “Everything is related to everything else, but near things aremore related than distant things.” 즉, 모든 것은 연관되어 있지만 가까운 것이 먼것보다 더욱 연관되어 있다는 지리학 1법칙에 의해, 원격탐사 수문학에서도 하천 유출량은 주로 관측지점에서 매우 가까운 곳이나 주로 수 km에서 수십 km 내외의 데이터만을 사용하여 하천 유출량을 예측하였다. 이것은 Leopold and Maddock (1953)이 사용한 방법인 관측지점에서 매우 가까운 곳(AHG)이나 하류의 관측지점과 연계되는 곳(DHG)에서 rating curve를 이용하거나, Manning’s equation을 이용하여 각종 수리변수들을 곱하는 방식으로 한 지점에서 하천 유출량을 산정하였다. 그 이후, 원격탐사 수문학에서도 그러한 방식들을 원격탐사 데이터로 치환하는 정도의 변형이 이루어졌다. 그러나 K19에서는 관측지점에서 수리변수들을 획득하는 것이 아니라, 심지어 수 백 km 떨어진 강의 하천 높이들을 한 식에 선형적으로 결합함으로써 더 나은 성능을 보여주었고, 이것은 원격탐사 수문학에서 기존의 패러다임을 바꾸는 결과였다. 현재까지도 이러한 방식으로 수 백 km 떨어진 수리변수들을 결합하여 더 나은 하천 유출량을 예측하는 것은 매우 드물다. 이는 ML/EL 기법을 단순히 적용하는 것이 아니라, ML/EL 기법을 적용하는 기본 학습자의 시공간적인 도메인이 기존의 도메인과는 전혀 다른 특성을 가진 것이 ELQ의 특징이다.
ELQ (K19)는 세계 최초로ML 기법을 위성 고도계 데이터를 이용하여 원격탐사 수문학에 적용한 사례이다(Irrgang et al., 2020). K19가 ML 기법을 적용한 최초의 사례라는 사실보다 더 중요한 것은 기존 원격탐사 수문학이 머물러 있던 원칙, 즉 가까운 것의 데이터를 이용하여 단일 rating curve나 Manning’s equation을 이용하여 하천 유출량을 산정하는 틀에서 벗어난 것에 대한 그 의미가 더욱 크다. K19 이후 K20에서는 한 걸음 더 나아가 다중 위성 고도계를 사용함으로써, 그 예측 가능 범위를 넓혔고, 또한 아프리카 콩고강 이후 동남아시아의 메콩강, TSL 때문에 복잡한 수문 환경을 가진 하천에서 보다 정확한 하천 유출량을 산정하였다. 또한, 메콩강과 같은 공유하천에서는 하천 유출량 데이터가 다른 나라와 공유되지 않는 경우도 빈번히 발생하기 때문에 각국의 물 전략에 있어서도 ELQ가 중요한 역할을 할 수 있다(Lawford et al., 2023a; 2023b).
K21에서는 in-situ Q 가 존재하지 않는 상황에서도 HRR 수문모델과 결합하여 훨씬 정확한 ELQ 기법을 개발했으며, 그 과정에서 ELQ 성능에 영향을 미치는 성능지표를 개발했다. 앙상블 러닝에서 성능에 중요한 영향을 미치는 것은 개별 학습자의 정확성과 다양성이고, 이것은 ELQ에서 PBL과 IDoC로 확인할 수 있다. 또한, in-situ Q 데이터를 획득할 수 없을 때에는 fBEM 몇몇 fBEM의 앙상블 평균인 —fBE—M을 통하여 정확한 ELQ 결과를 얻을 수 있었다.
향후 ELQ 연구에서는 현재 아프리카 콩고강과 동남아시아 메콩강 외에 다른 하천을 대상으로 ELQ를 적용하는 것이 필요하며, 기존 수문학 모델을 검보정하는 방식으로 다중 위성 고도계 데이터를 사용하는 것 또한 연구 과제 중 하나가 될 수 있다(Dhote et al., 2021; Du et al., 2020). 또한 지금까지 ELQ는 동종 학습자(H-Q relationship)를 사용하여 하천 유출량을 추정하였으나, 최근 SWOT 미션 및 소형 SAR 군집 위성 등이 다양하게 개발됨에 따라 다양한 수리변수들을 활용한 이종 학습자(H-Q / We-Q / S-Q relationships)를 기본 학습자로 한 ELQ 모델도 추후 개발되어야 할 것이다. 그리고 무엇보다도 in-situ Q 데이터의 도움없이 하천 유출량을 예측하는 것 또한 도전적인 과제로써, 이는 ELQ와 수문학 모델, AMHG 등 다양한 알고리즘과 모델, 데이터의 결합을 필요로 할 것이다. ELQ는 지금까지 원격탐사 수문학에 여러방면으로 기여했지만, ELQ 기법만으로는 하천 유출량의 정확한 예측은 쉽지 않다. 그러나 ELQ는 계산적으로 간단하면서 비교적 정확한 하천 유출량을 산정할 수 있는 기법 중 하나이다. 따라서 ELQ의 장점을 잘 보존하면서 그 알고리즘을 개선해 나갈 수 있는 연구가 추가적으로 필요하다.
본 논문은 육군3사관학교 부설 충성대연구소 2024년도 국고연구비 지원(24-11) 및 2025년도 논문게재비 지원을 받았음.
No potential conflict of interest relevant to this article was reported.
The supplementarymaterials for this reviewarticle can be found online at https://github.com/dkim-32/Review_ELQ.
Korean J. Remote Sens. 2025; 41(1): 11-29
Published online February 28, 2025 https://doi.org/10.7780/kjrs.2025.41.1.2
Copyright © Korean Society of Remote Sensing.
육군3사관학교 건설공학과 조교수
Assistant Professor, Department of Civil Engineering, Korea Army Academy at Yeongcheon, Yeongcheon, Republic of Korea
Correspondence to:Donghwan Kim
E-mail: raintear@kaay.ac.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Accurate estimation of river discharge (Q) globally is essential for water resources management, including flood control and drought management. However, the number of stream gauges globally used to calculate Q is decreasing. Additionally, estimating Q of transboundary rivers or rivers with unique hydrological characteristics, such as the Mekong River, is challenging using traditional hydrological methods. The most representative methods for estimating Q have been the empirical power function using at-a-station hydraulic geometry (AHG) proposed by Leopold and Maddock (1953) and the method using Manning's equation proposed by Manning (1889). Recently, Kim et al. (2019a; 2019b; 2021) improved the accuracy of Q estimation in the Congo and Mekong River Basins using ensemble learning regression for estimating Q (ELQ). However, despite ELQ's superior performance, its mathematical and hydrological framework has not been studied in detail. This review study analyzed relevant papers to understand the mathematical and hydrological significance of ELQ, which differentiates it from existing Q prediction techniques. We also analyzed cases cited in other international papers. Through this analysis, we expect to draw the contribution of the ELQ method for estimating Q to remote sensing hydrology domestically and internationally.
Keywords: Ensemble learning, ELQ, River discharge, Congo River, Mekong River, Satellite altimetry, Weak learner
전 세계적으로 하천 유출량(Q)을 정확히 예측하는 것은 홍수조절, 가뭄관리 등 수자원 관리에 필수적인 요소이지만, 전 세계적으로 (Q)를 산출하고 추정하기 위한 현장 게이지의 숫자는 감소추세에 있다. 또한 공유하천이나 메콩강처럼 특수한 수문학적 특징을 보이는 하천의 유량은 기존 수문학적 방법으로 유출량을 산정하기에는 어려움이 따른다. 전통적으로 하천 유출량을 구하는 대표적인 방법들로 Leopold and Maddock (1953)이 제시한 at-a-station hydraulic geometry (AHG)를 이용한 경험 멱함수(empirical power function)와 Manning (1889)이 제안한Manning’s equation을 이용한 방법 등이 있다. 최근 Kim et al. (2019a; 2019b; 2021)은 앙상블 러닝 회귀법(ensemble learning regression for estimating (Q), ELQ)이라는 머신러닝 기법을 통해 콩고강과 메콩강 일대의 하천 유출량 예측 정확도를 향상시켰다. 그러나 ELQ의 우수성에도 불구하고 ELQ의 수학적·수문학적 프레임워크(framework)에 대해 자세히 연구된 바는 없다. 본 리뷰 연구에서는 ELQ 관련 논문들을 분석하여, ELQ가 기존 하천 유출량 예측기법과 차별화되는 수학적·수문학적 의의를 살펴보고, 여러 국제논문에서 인용된 사례를 분석했다. 이로써 ELQ기법이 원격탐사 수문학에 기여하는 바를 도출하여, 향후 국내·외 원격탐사 수문학에 활용되어 보다 정확한 하천 유출량을 예측하는 방법이 되기를 기대한다.
주요어: 앙상블 러닝, 앙상블 러닝 회귀법, 하천 유출량, 콩고강, 메콩강, 위성 고도계, 약한 학습자
전 세계적으로 하천 유출량(river discharge, Q)을 정확히 측정하고 예측하는 것은 홍수조절, 가뭄관리 등 수자원 관리에 매우 필수적인 요소이지만, 전 세계적으로 Q를 산출하고 추정하기 위한 현장 게이지(stream gauge)의 숫자는 감소 추세에 있다(Collins et al., 2024). 따라서, 현재 운영되고 있는 현장 게이지에 의해 취득되는 데이터는 점점 희소해지고 있으며, 데이터를 획득하는데 많은 제한 사항이 따른다(Du et al., 2020). 예를 들면, Congo Basin은 강 유역 기준으로Amazon Basin에 이어 두 번째로 넓고(~3.7 million km2), 유출량 기준으로 전세계에서 두 번째이지만(~40,600 m3/s), 20세기 초까지 수 백 개의 현장 게이지가 있었던 것이 최근에는 약 10개 정도로 현저히 줄어든 상태이다(Alsdorf et al., 2016; Kim, 2021). 또한, 공유하천(두 나라 이상의 국경을 지나 흐르는 하천, transboundary river)의 경우에는 수자 원에 대한 주변 국가들의 이익이 상충되는 경우가 많고, 이러한 경우 현장 게이지가 운영되더라도 데이터를 획득하거나 주변국까지 데이터를 공유하기가 매우 어렵다. 이러한 공유하천은 전 세계적으로 약 261개 이상, 전 세계 담수유량의 약 60%를 차지한다(Kim et al., 2020).
한편, 동남아시아에 위치해 있는 메콩강(Mekong River)의 경우 Tonle Sap Lake (TSL)와의 상호작용에 따라 특수한 수문학적 특징을 보인다. 우기(wet season)에는 메콩강의 수위가 상승하여 TSL의 수위보다 높아져 메콩강의 물이 호수로 역류하면서 호수 및 floodplain의 면적이 넓어지고, 건기(dry season)에는 반대로 메콩강의 수위가 낮아지면서 호수의 물이 다시 메콩강으로 흘러들어가 호수 및 floodplain의 면적은 줄어드는 경향을 보인다(Chang et al., 2020). 이러한 메콩강 유역의 연간 유량 변화 및 계절에 따른 유량 역전 현상은 기존의 수문학적 방법을 통해 유량을 산출하기에 많은 제한사항이 발생한다(Chang et al., 2019). 이렇듯 전 세계적으로 미계측 지역의 하천 유출량 산정을 위해 지금까지 다양한 방법이 연구되어 왔지만, 상대적으로 우리나라 원격탐사분야 학회지에서는 이러한 연구들이 많이 이루어지지 않았다. 2025년 1월 기준 대한원격탐사학회(https://www.kjrs.org/main.html)에서 검색어로 river discharge를 입력한 결과 검색되는 논문은 총 6편으로써 연안 해저 지하수 유출 특성에 관한 연구 1건(Kim and Jung, 2021), 홍수량 및 홍수면적에 대한 피해범위 산정에 관한 연구 4건(Son and Kim, 2019a; 2019b; Park and Lee, 2018a; Kim et al., 2018), 위성 영상을 활용한 가뭄 모니터링 1건(Park and Lee, 2018b)이며, 미계측 지역의 하천 유출량 산정에 대한 연구는 부족했다.
하천 유출량Q는 식(1)과 같이 하천 흐름의 평균 유속(mean velocity of flow)과 단면적(cross-sectional wetted area)의 곱으로 정의된다 (Chow, 1959).
여기서 Q는 하천 유출량이며, v는 평균유속, A는 단면적을 나타낸다. 한편, 이러한 하천 유출량을 구하는 방법은 전통적으로 두 가지 방법에 의해 주로 산출되었는데, 하나는 Leopold and Maddock (1953)이 제시한 at-a-station hydraulic geometry (AHG)를 이용한 방법으로, 그들은 하천 유출량에 대해 식(2–4)와 같은 경험 멱함수(empirical power functions)를 제안했다.
여기서 Q는 하천 유출량이며, w, d, v는 각각 하천의 폭, 깊이, 유속을 말하며, a, b, c, h, k, m은 경험상수로써, a · c · k와 b + h + m은 각각 1이다(Dingman, 2007). 하천의 수리변수(hydraulic variables)들인 폭, 깊이, 유속 중 한 가지를 이용하면, 식(2–4)를 이용하여 하천 유출량을 계산할 수 있다.
다른 하나는Manning (1889)이 제안한 경험식인Manning’s equation을 이용한 방법이다.
여기서 Q는 하천 유출량이며, n은 Manning’s roughness coefficient이며, A는 흐름의 단면적, R은 동수경사(hydraulic radius), S는 channel slope를 말한다. 일반적으로Manning’s eqaution을 적용할 때 하천의 흐름은 등류(uniformflow)이며, 하천 바닥의 경사와 하천 표면의 경사가 같은 것으로 가정한다.
지금까지 하천 유출량의 계산은 크게 위 두 가지 방법으로 산출되었으나, 최근 원격탐사(remote sensing, RS) 기법의 발전에 따라 위 두 가지 식에 포함된 수리 변수들을 직접측량이 아닌 원격탐사 방법으로 측량할 수 있게 되었고, 이에 따라 지난 수십 년간 원격탐사에 의 한 하천 유출량 기법이 발전하게 되었다. Kim et al. (2019a)은 원격탐사 등에 의한 하천 유출량 측정 기법을 아래와 같이 분류했다.
Velocity-area method (속도-면적 기법): 하천 유출량의 정의에 따라 유출량을 하천의 유속과 단면적의 곱으로 계산하는 방법이며, Tarpanelli et al. (2015)은Moderate-Resoultion Imaging Spectrometer 영상을 이용하여 유속과 단면적을 얻어 하천 유출량을 구했다.
H-Q rating curve (수위-유출량 관계 곡선): AHG에 기반한 방법으로 많은 연구자들이 하천 수위와 유출량에 대한 관계곡선을 얻은 후 하천 유출량을 구했다(Coe and Birkett, 2004; Kouraev et al., 2004; Normandin et al., 2018; Bogning et al., 2018).
Effective riverwidth (We)-Q rating curve (유효 하천폭-유출량 관계 곡선): 하천 유출량은 유효 하천폭과 유출량의 관계식에서 얻어진다(Temimi et al., 2005; Smith and Pavelsky, 2008; Beighley and Gummadi, 2011; Yamazaki et al., 2014; Scherelis et al., 2023; Huang et al., 2018).
Manning’s equation: Manning’s equation과 그것을 일부 수정하여 얻은 식을 이용하여 하천 유출량을 계산한다. S (surface water slope), We, H, v 등 수리변수들의 곱으로 하천 유출량을 구한다(Bjerklie et al., 2005; Jung et al., 2010).
At-many-stations hydraulic geometry (AMHG): 하천 유출량은 in-situQ데이터 없이 위성영상에서 얻어진 수리변수들을 이용한 scaling law를 이용해 얻어진다(Gleason and Smith, 2014; Gleason et al., 2014).
Hydrologic and/or hydrodynamic model (수문 모델 및 수문 동역학 모델): 하천 유출량은 원격탐사 관측값과 수문 모델 및 수문 동역학 모델 값에 의해 얻어진다(Brakenridge et al., 2012; Andreadis et al., 2007; Liu et al., 2015; Tarpanelli et al., 2013).
Table 1은 원격탐사로부터 얻어진 수리 변수들(H, We, S)을 이용하여 Q를 예측할 때 발생하는 제약사항들을 정리한 것이다. 즉, 위성 고도계(radar altimetry)를 이용하여 하천 수위 정보를 얻을 수 있는데, 이러한 방법의 단점은 위성의 재방문 주기(repeating cycles)가 10~35일로 다소 길다는 점과 위성 고도계의 ground track 간격이 수십~수백 km에 이른다는 점이다. 예를 들면, Envisat과 Jason-1 위성 고도계의 경우, 적도에서 ground track 간격은 각각 80 km와 315 km이다. 한편, 유효 하천 폭(We)을 이용한 하천 유출량 예측은 비교적 쉽게 위성 영상에서 그 정보를 추출할 수 있지만 그 결과물의 정확성이 상대적으로 낮다는 단점이 있다(Smith and Pavelsky, 2008; Gleason et al., 2014). 또한, 하천 표면 경사(S)를 위성 영상에서 추출하여 수정된 Manning’s equation을 사용하여 Q를 산출할 수 있지만, S를 추출하는 방법은 상대적으로 어려워 이러한 방법을 사용하여 하천 유출량을 계산한 사례는 매우 드문 실정이다(Jung et al., 2010; LeFavour and Alsdorf, 2005). 그러나 미국의 National Aeronautics and Space Administration(NASA)와 프랑스 우주청 FrenchNational SpaceAgency (CNES)가 공동 추진하는 임무인 SurfaceWater and OceanTopography (SWOT) 위성이 2022년 12월 16일 미국 캘리포니아주 반덴버그 우주군 기지에서 발사됨에 따라, 앞으로는 하천 표면 경사 등의 수리변수 추출이 비교적 쉬워질 것으로 예상된다.
Table 1 . Constraints to estimate Q using hydraulic variables based on RS methods.
Hydraulic variables | Constraints to estimate Q |
---|---|
Altimetry-derived H | Repeating cycles of 10 to 35 days. Sparse orbital spacings. |
We derived from satellite imagery | Less accurate results than those obtained from altimetry-derived H. |
S derived from SRTM DEM | Rarely used to estimate Q due to unavailability (i.e., difficult to obtain). |
SRTM: Shuttle Radar Topography Mission, DEM: Digital Elevation Model..
이와 같이 하천 유출량을 예측하기 위하여 획득 가능한 다양한 수리 변수들과 모델이 존재하지만 각 선택지에 따른 단점이 존재하며, 어떠한 단일 변수나 단일 모델이 다른 모든 다른 변수나 모델들보다 성능이 월등하게 뛰어날 수는 없다. 이는 수학적으로 No free lunch theorem 이라고 한다(Wolpert, 1996). 한편, Kim et al. (2019a) (이하 K19)은 하천 유출량을 계산하기 위한 앙상블 러닝 회귀법(ensemble learning regression for estimating river discharge, ELQ)을 개발함으로써 기존 AHG 또는 Manning’s equation에 기반한 다른 하천 유출량 계산법보다 정확한 유출량 알고리즘을 개발했다. 또한, 이 기법은 아프리카 콩고 강 유역에 적용된 데에 이어 ELQ를 메콩강 유역에 적용하여 기존 하천 유출량 계산보다 더욱 정확한 결과를 보였다(Kim et al., 2019b) (이하 K20). 더 나아가 ELQ를 in-situQ데이터에 의존하지 않고 수문학 모델과 결합하여 더 정확한 하천 유출량을 산정하였다(Kim et al., 2021) (이하 K21).
최근 몇 년 간 인공지능, 머신러닝 및 딥러닝 기법은 수리 수문학 분야에도 많은 영향을 끼쳤다. 이에 따라 하천 유출량을 산정하고 수리 수문학 분야에 이러한 기법들을 사용한 논문들이 다수 소개되고 있다(Wang et al., 2024; Lu et al., 2023; Meddage et al., 2022; Zounemat-Kermani et al., 2021). 예를 들면 Lu et al. (2023)은 두 개 저수지의 이전 유출량 값과 유역 강수량 데이터를 활용하여 하천 일일 유출량을 머신러닝 기법으로 예측하여 향상된 정확도를 보여 주었으며, Wang and Peng (2024) 또한 미국 본토를 대상으로 수문학적 시뮬레이션과 머신러닝 기법을 사용하여 하천 유출량의 정확도를 향상시켰다. 이와 같이 최근 머신러닝 기법의 사용은 수문 모델 및 수문 동역학 모델에서 다양한 변수를 결합하는 과정에서 향상된 결과를 보였다. 그러나 이러한 수문 모델을 유지 관리하는 것은 시간과 비용이 많이 소요되기 때문에, 미계측 지역 하천에 대한 유출량 예측에는 적합하지 않을 수 있다. 또한, 이러한 머신러닝 기법을 사용한 최근 논문들은 머신러닝의 다양한 기법을 혼합하여 더 나은 결과 값들을 다수 도출하였지만, 그 기법을 위한 입력 데이터 변수에 대한 고려사항이나 수학적·수문학적 고찰이 다소 부족한 실정이다.
이에 따라 본 논문에서는 원격탐사 데이터를 사용한 하천 유출량 산정 및 예측 분야에서 머신러닝을 사용한 기법인 ELQ의 수문학 및 수학적 프레임워크에 대하여 고찰하고자 한다. ELQ 기법을 이용한 하천 유출량 예측 관련 논문(K19-K21)은 지금까지(2024년 11월 기준) 많은 국제논문에서 약 94회 인용된 바 있지만, 아직 그 수학적·수문학적 프레임워크에 대해 자세히 소개된 바가 없다. 따라서 본 연구에서는 발표된 ELQ 논문(K19-K21)에 대해 간단히 소개하고, ELQ가 기존 하천 유출량 예측 기법과 차별화되는 수학적·수문학적 의의를 알아본다. 또한, 다른 국제논문에 인용된 사례를 분석하여 ELQ 기법이 원격탐사에 기반한 수문학에 기여한 바를 도출하고, 향후 국내·외 원격탐사 수문학(remote sensing hydrology) 분야에 활용되어 보다 정확한 하천 유출량을 예측할 수 있도록 ELQ 기법을 소개하고자 한다.
앙상블 러닝 회귀법(ELQ)은 K19에서 위성 고도계(satellite altimetry) 데이터를 이용하여 하천 유출량을 머신러닝 기법으로 산출한 것으로써, 기존 하천 유출량 계산 방법보다 더욱 정확한 결과를 보였다. 본 장에서는 ELQ에 적용된 앙상블 러닝(ensemble learning, EL)에 대해 간략히 소개한다.
EL은 다중 분류 시스템(multiple classifier system) 또는 위원회 결정 기반 학습(committee-based learning)이라고도 불리며, 어떠한 문제를 해결하기 위해 여러 모델을 훈련(train), 결합(combine)하여 보다 나은 모델을 만드는 과정이다(Zhou, 2021). EL은 머신러닝(machine learning, ML)의 한 방법이며, ML은 계산적인 방법에 의한 경험 학습을 통해 모델이나 시스템의 성능을 향상시키는 기법을 말한다(Zhou, 2021). 통상적으로 EL은 분류(classification)에 관한 문제에 많이 사용되지만 회귀(regression) 문제에도 사용될 수 있다.
앙상블 러닝은 통상적으로 기본 학습자(base learners) 생성 단계인 ensemble generation과 생성된 기본 학습자들을 결합하는 단계인 ensemble integration의 두 단계로 이루어진다(Zhou, 2015). 일부 문헌에서는 그 두 단계 사이에 기본 학습자들 중 일부를 필터링하는 단계인 ensemble pruning을 넣기도 한다(Mendes-Moreira et al., 2012). 앙상블 러닝의 과정을 살펴보면 Fig. 1과 같다. Fig. 1에서 보는 바와 같이 1단계 앙상블 생성 단계는 다수의 기본 학습자(base learners or candidate functions,
이 단계에서 학습자들은 동종 학습자(homogeneous functions) 또는 이종 학습자(heterogeneous functions)로 나누어지고, 이는 데이터를 훈련시키기 위해 각각 같은 모델 또는 다른 모델을 사용한다. 예를 들면, 유출량을 구하기 위해 H-Q relationship 단일 모델을 사용할 수 도 있지만, We-Q 및 S-Q relationships 등 여러 모델을 사용하여 유출량을 구할 수도 있다. 일반적으로 이종의 다양한 앙상블 후보 학습자(ensemble candidates)를 사용하는 것이 앙상블 러닝의 성능을 향상시키지만(Margineantu and Dietterich, 1997), 이종의 predictors를 얻는 것이 현실적으로 어려울 경우도 있다. 예를 들면, 2006년에 발사된 Advanced Land Observing Satellite (ALOS) Phased Array type Lband SyntheticAperture Radar (PALSAR)의 경우, 재방문 주기(repeat cycle)가 46일로 비교적 긴 편이며, 이를 이용하여 만든We의 시간 해상도는 상대적으로 낮을 수 밖에 없다. 반면, 2008년에 발사된 Jason-2의 경우에는 궤도주기(orbiting cycle)가 10일로 상대적으로 짧기 때문에 시간 해상도가 비교적 높다고 할 수 있다.
한편, 최근 핀란드 국적의 지구관측 위성회사인 ICEYE의 경우, 2023년 6월까지 27기의 X-band Synthetic Aperture Radar (SAR) 위성을 쏘아 올렸으며, 같은 해 11월 4기의 SAR 위성을 발사함으로써 2018년부터 현재까지 31기의 SAR 위성을 운용중으로, 상대적으로 더 높은 1–22일의 재방문 주기를 가진다(https://earth.esa.int/eogateway/missions/iceye). ICEYE의 3세대 위성군인 4기의 위성은 50 cm급의 공간해상도를 얻을 수 있는 spot fine 모드와 지상변화를 거의 실시간으로 파악할 수 있는 dwell 모드르 갖춘 것으로 알려져 있다. 따라서 ICEYE의 소형 SAR 군집 위성군을 활용하면 하천 유출량 예측을 위한 이종 데이터인We 및 S 등을 좀 더 조밀한 시간 간격으로 얻을 수 있을 것으로 예상된다.
ELQ 관련 연구(K19–K21)에서는 하천 유출량을 예측하기 위한 기본 학습자로써 AHG경험 멱함수 중 식(3), 즉 하천 수위(깊이)와 유출량 관계 곡선을 사용했다(H-Q rating curve). 이 때 하천 수위를 얻기 위해 위성 고도계(radar altimetry) 데이터가 사용되었다. 위성 고도계 관련 연구 역시 한국의 원격탐사 연구에서 다소 생소한 분야로써, 2025년 1월 기준 대한원격탐사학회(https://www.kjrs.org/main.html)에서 검색어로 altimetry를 입력한 결과 총 3건의 연구논문과 1건의 리뷰 논문이 검색되었다. 관련논문은 해수면 변화(Hwang et al., 2021), 해양 에디 경계 변화 관측(Kim et al., 2024), 북극 융빙호(melt ponds) 탐지(Kim et al., 2021), 원격탐사에서 지하수 수자원 적용 사례 관련 리뷰(Lee, 2017) 등 4건이었다.
위성 고도계는 보통의 위성이 취득하는 영상과 달리 1차원적인 고도 데이터를 취득한다. 실제로 취득하는 데이터는 위성에서 발사된 펄스가 지표면(통상적으로 수표면)을 맞고 되돌아오는 지연 시간(time delay)을 측정한다. 지연 시간이 측정되면 위성과 수표면과의 거리를 측정할 수 있고, 수위는 위성의 reference ellipsoid 고도에서 여러가지 보정과정을 거쳐 구해진다. 세계 최초의 위성 고도계는 1973년에 발사된 미국NASA의 Skylab이며, 1993년 TOPEX/Poseidon 위성이 발사된 이후 부터 고도계 자료를 활용한 해수면 높이 관측이 활발해지기 시작했다(Hwang et al., 2023; Lee et al., 2009). 그 이후 많은 위성 고도계가 발사되면서 성능이 향상되었다. 현재 운용 중인 위성 고도계는 Jason-3 등을 비롯하여 총 10개이다(https://www.aviso.altimetry.fr/en/missions/current-missions.html). ELQ 관련 연구에서는 콩고강을 지나는 Envisat radar altimetry (K19/K21, 2002년~2010년) 데이터와 메콩강을 지나는 Envisat radar altimetry (K20, 2002년~2010년) 및 Jason-2 radar altimetry (K20, 2008년~2016년) 데이터를 사용했다. Envisat은 2002년 3월 1일에 발사되었으며 ERS-1과 ERS-2를 후속하여 발사된 위성 고도계이며 35일의 repeat cycle을 가지고 Jason-2는 TOPEX/Poseidon과 Jason-1을 후속하여 발사된 위성 고도계로써 10일의 repeat cycle을 가진다(K20). Envisat의 경우Geophysical Data Record (GDR)18 Hz 자료를, Jason-2의 경우 GDR 20 Hz 자료를 각각 사용했다. 위성 고도계에서 반사된 펄스를 처리하기 위해 retracking 모델이 사용되는데, 이 때 내륙지방에 가장 적합하다고 알려진 ICE-1 retracking algorithm을 사용했다(Kim et al., 2017a; Yuan et al., 2017; Frappart et al., 2006).
최근 수십 년간 원격 탐사 수문학이 발전하게 되면서 하천 유출량을 정확하게 예측하고자 하는 수요에 부응하여 많은 기법들이 소개되었다(Durand et al., 2016; Bogning et al., 2018; Jung et al., 2010; Sichangi et al., 2016; Gleason and Smith, 2014; Gleason et al., 2014). 그러나 이러한 방법들은 서론에서 소개한 바와 같이 원격탐사 데이터를 사용 하지만, 기존의 대표적인 방법인 AHG와Manning’s equation을 사용한 방법이었다(Tarpanelli et al., 2013; 2017; Huang et al., 2018; Paris et al., 2016).
한편, ELQ 기법은 원격탐사 데이터인 위성 고도계 데이터와 기존 방법인 AHG를 사용하면서 기존 방법과 대별되는 방법을 사용했다. 기존 방법과 다른 두 가지 특징은 첫째, 기존 방법은 단일식이나 변수들의 곱을 통해 유출량을 구한 반면, ELQ 기법은ML의 한 방법인 앙상블 러닝을 이용하여 유출량을 구한다. 둘째, 기존 방법은 공간적으로 동일한 한 개의 지역의 수리변수들와 데이터를 이용하여 유출량을 구했다면, ELQ는 공간적으로 멀리 떨어진, 즉, 수백 km떨어진 몇 개 지점들의 데이터를 결합하여 모델의 성능을 향상시킨다.
앙상블 러닝 회귀 모델의 기본 학습자는 식(3)을 변형하여 구해진다. 식(3) d = c · Qh에서 d는 하천의 깊이, c와 h는 경험상수, Q는 하천 유출량을 나타낸다. 이 때, 하천의 깊이는 위성고도계로 측정이 직접적으로 불가능하며, 위성 고도계로 측정 가능한 것은 하천의 상대적인 높이(H)다. 따라서 K19에서는 위성 고도계를 통해 각 virtual station (VS)에서 얻어진 높이(altimetry-derived H)를 이용하여 하천의 깊이를 추정하였다. 세부적인 추정 방법은 K19를 참조 바란다. 위성 고도계 데이터를 통해 하천 깊이(d)를 추정하면 식(3) d = c · Qh을 Q에 대한 식으로 나타낼 수 있고, 이는 식(6)과 같다.
여기서
앙상블 러닝 회귀 모델은 이론적으로 n개의 기본 학습자를 가질 수 있으나 과적합 등을 고려하여 3개의 후보 학습자를 이용하였고, 식(7)과 같이 기본 학습자를 결합하였다(K19).
여기서 fELQ는 최종 앙상블 러닝 회귀 모델이며,
K19에서는 2006년부터 2010년까지 Envisat 위성고도계 데이터와 Congo Basin에서 유지되고 있는 in-situ station 중의 하나인 Brazzaville 유량 게이지의 in-situ Q 데이터를 먼저 ELQ를 통해 훈련 시킨 후(2002년 11월~2006년 11월), ELQ의 예측 값을 2006년 12월부터 2010년 9월까지의 기간 동안 검증하였고, 그 결과 root-mean-square error (RMSE)는 기존 AHG 모델 대비 약 823 m3s–1만큼 감소하였으며, relative RMSE (RRMSE)는 약 2.08% 감소하였다. 이 때, ELQ의 기본 학습자는 콩고강의 본류에 위치한 9개의 VSs에서 추출된 높이 데이터를 사용했다. Fig. 2에서 보는 바와 같이 예측하고자 하는 Brazzaville station에서 최소 수십 km에서 500–600 km이상 떨어진 지역의VS 데이터를 사용했다. 이것은 원격탐사 수문학에서 처음 시도되었으며, Irrgang et al. (2020)은 원격탐사 수문학에서 ELQ (K19)가 최초로 머신러닝과 위성고도계 데이터를 결합하여 기존 방법보다 성능 향상을 가져왔다고 평가했다. 이러한 사실은 ELQ가 단지 머신러닝 기법을 원격탐사 수문학에 적용한 것을 넘어서서, 기존의 하천 유출량 예측 패러다임을 결정적으로 변화시킨 것에 더 큰 의미가 있다.
즉, 기존에는 AHG 또는 downstreamhydraulic geometry (DHG)의 단일 관계에 의해 하천 유출량을 계산했다. DHG란 관측된 수리변수들과 하류 방향으로 떨어진 유출량의 관계가 식(2–4)와 같이 성립하는 수리 기하학적인 관계를 의미한다(Chow, 1959; Jung et al., 2013; Lee and Yoo, 2024). 한편, DHG의 관계에서도 통상적으로 수 십 km 내에 있는 수리 변수들을 획득하여 하천 유출량을 산정하였으나, K19에서는 수 백 km이상 공간적으로 이격된DHG를 기본 학습자로하여 세 개의 다른 DHG를 선형적으로 결합하여 유출량을 예측한 것은 매우 이례적인 사례로 평가되며, 이러한 새로운 기법으로 하천 유출량 예측 정확도를 향상시켰다.
K19에서 ELQ 기법을 소개한 후, K20과 K21에서 ELQ에 대한 응용이 이루어졌다. 먼저 K20에서는 ELQ를 메콩강 일대에 적용시켰다. 메콩강은 세계에서 12번째로 긴 강이며, 동남아시아에서 가장 큰 강 유역으로써, 특히 메콩 삼각주(Mekong Delta) 지역은 메콩강 유역에서 가장 인구가 많은 지역 중의 하나로 약 1,600만 명의 인구가 살고 있으며, 이는 메콩강 유역에 살고 있는 인구의 약 23%를 차지한다(Chang et al., 2020).
한편, 앞서 서론에서 밝힌 바와 같이, 공유 하천의 경우에는 수자원에 대한 주변 국가들의 이익이 상충되는 경우가 많다. Fig. 3에서 보는 바와 같이, 메콩강 유역은 6개의 나라(중국, 미얀마, 라오스, 태국, 캄보디아, 베트남)의 국경을 지나고 있다. 따라서 현장 게이지가 운영되더라도 그 데이터를 획득하기 어려울 경우가 있다. 또한, 메콩강 하류 유역(LowerMekong River Basin, LMRB)은 TSL의 수문학적 복잡성으로 인해 하천 유출량을 더욱 예측하기 힘들다. LMRB에 위치한 TSL은 1년 내내 호수인 지역과 seasonally flooded areas로 이루어지는 floodplain으로 둘러싸여 있다. 호수의 면적은 건기(11월~3월)에는 길이 120 km, 폭 35 km로 약 2,500 km2의 면적을 보이는 반면, 우기(5월~10월)에는 길이 250 km, 폭 100 km로 약 17,500 km2의 면적을 보인다(Cambell et al., 2009). 메콩강의 TSL의 흐름은 일명 flow reversal로 불리는데, 우기가 끝나갈 무렵인 9월~10월에 메콩강의 수위가 낮아지면, 우기동안 floodplain에 저장된 물은 호수에서 메콩강 하류 삼각주 지역으로 흐르고, 건기가 끝날 무렵인 5-6월 부터 비가 내리기 시작하면서 메콩강의 수위가 상승하고, 이내 강의 흐름이 역류하여 물은 TSL로 흘러간다(Olson and Morton, 2018). 이러한 TSL의 flow reversal은 메콩강 유역의 주민들에게는 우기 동안에 홍수 피해를 감소시키고, 건기 동안에는 농업용으로 사용할 수 있는 관개용수 제공과 함께 메콩 삼각주 아래의 바닷물이 메콩 삼각주로 침투하는 정도를 완화시키는 등 지역 주민에게 많은 이점을 제공하지만, 동시에 메콩강의 유출량을 예측하는데 있어 복잡성을 증가시키고, 따라서 고해상도의 hydrodynamicmodel을 필요로 할 수 있다(Mekong River Commission, 2009).
K20에서는 K19에서 개발된 ELQ를 기본으로 메콩강에 적용시켜 보다 정확한 하천 유출량을 계산하였다. K20에서 사용된 in-situQ 데이터는 Stung Treng, Kratie, Tan Chau 세 곳에서 획득하였으며, 기본 학습자는 Envisat altimetry (2002–2010년 시기)와 Jason-2 altiemtry (2008–2016년 시기) 데이터를 사용했다. 이러한 Multi-mission 위성 고도계 데이터를 사용할 때 장점은 비교적 장기간에 대해서 미계측 유역의 하천 유출량을 산정할 수 있다는 점이다. 그리고 Tan Chau의 경우, in-situ Q 데이터는 2003–2006년, 2013–2016년에 대해 획득한 상태로 2007–2012년까지 6년의 기간 동안에는 미계측 구간으로 남아있다. 이렇게 현장 게이지의 운영이 일시적으로 중단된 경우, ELQ 기법을 사용하면, 하천 유출량의 예측 정확도를 보다 효과적으로 향상시킬 수 있다.
또한 TSL로 인한 메콩강의 수문학적 복잡성 때문에 세 개의 in-situ Q station 중 가장 하류에 위치하고 있는 Tan Chau에서의 하천 유출량 예측(2003-2006년)에서 단일AHG에 의한 유출량은Nash-Sutcliffe Efficiency (NSE) 기준 0.84/0.83 (training/validation)을 보였지만, ELQ 기법을 사용한 예측은 NSE 0.97/0.96 (training/validation)을 보였다.
한편, K20에서 TSL보다 고위도에 위치하고 있는 Stung Treng과 Kratie에서는 기존 모델과 ELQ 기법과의 성능차이는 미미했다. 상대적으로 성능이 좋지 않은 ELQ 결과는 바로 기본 학습자의 다양성(diversity) 부족에서 기인한다(Zhou, 2009; Brown et al., 2005a). 즉, 기본 학습자의 상관관계(correlation coefficient, r)가 증가하면, 기본 학습자의 다양성은 감소하므로, ELQ의 결과에 부정적인 영향을 미친다. 한편 Tan Chau에서는 일반적으로 ELQ 결과가 AHG 모델보다 우수한데, 이것 또한 기본 학습자의 다양성과 관련이 있다.
일반적으로 ELQ 기법은 in-situ Q 데이터가 존재하는 하천 유역에서 기본 학습자를 학습하고, 그것들을 결합시켜 ELQ를 생성하였다. K21에서는 in-situ Q가 존재하지 않거나, 여러가지 사유로 인해 현장 게이지가 작동하지 않을 경우에 ELQ 기법을 사용하여 하천 유출량 정확도를 향상시켰다. K21 또한 콩고강 유역을 연구지역으로 하였고, 수리 수문 모델인 Hillslope River Routing (HRR)을 사용하여 HRR-derived Q를 구한 후, Envisat 위성 고도계 데이터와 함께 훈련시켜 ELQ 모델을 생성하였다. 기존에 원격탐사 데이터와 수문모델 등을 사용하여 콩고강 유역을 연구한 몇몇 논문에서 유출량 정확도는 RRMSE 기준 약 12.2-37.2%였다(Nijssen et al., 2001; Beighley et al., 2011; Sichangi et al., 2016). 그 중 Sichangi et al. (2016)은 in-situ Q 데이터를 사용하여 RRMSE 12.2%의 정확도를 보였고, in-situQ데이터를 사용하지 않았을 경우에는 약 20-40% 안팎의 RRMSE를 보였다.
미계측 유역의 하천은 세 가지로 정의될 수 있는데, 첫째는 완전히 계측되지 않은 순수한 미계측 유역의 하천, 둘째, 현장 게이지가 과거에는 설치되어 있었으나 예산부족 등 여러가지 사유로 더 이상 운영되지 않거나(Shiklomanov et al., 2002), 셋째, 기계적 결함이나 오류로 인해 현장 게이지가 일시적으로 중단되어 계측을 하지 못한 경우(Loukas and Vasiliades, 2014) 등으로 나뉜다. K21에서는 세 가지 경우 중 둘째와 셋째의 경우 Q를 예측하는 것을 목표로 하였다. K21에서는 Kinshasa에서의 현장 게이지가 1990년 이후 운영을 중단했다고 가정하고, 이후 하천 유출량을 예측한다. 단, Kinshasa의 현장 게이지 데이터는 1990년 이후에도 획득이 가능하나 K21에서는 사용되지 않았다. 따라서 ELQ의 기본 학습자는 HRR-derived Q를 사용하여 얻었다. 한편, K19와 K21에서 앙상블 결합은 조금 다른 방식으로 이루어졌다. K19에서는 기본 학습자들의 결합 과정 간에 in-situ Q와 estimated Q의 차이를 최소화하는 학습 과정을 거치게 되며, 이 과정을 통해 각 기본 학습자의 가중치가 각각 결정되었다. 그러나 K21에서는 각각의 기본 학습자의 가중치를 동일하게 하는 방식인 Basic EnsembleMethod (BEM)를 식(8)과 같이 적용했다.
여기서 fBEM은 basic ensemble function이며,
K21에서 현장 게이지 데이터와 비교한 HRR에서 얻어진 하천 유출량의 정확도는 RRMSE 기준, 약 15.72/18.00% (training/validation)의 정확도를 보인 반면, ELQ에서 얻은 가장 성능이 좋은 유출량의 정확도는 약 9.89/6.34% (training/validation)였다. 따라서, 기존 in-situ Q 데이터를 사용하지 않은 하천 유출량 예측에 비해서 상당히 향상된 성능을 보여 주었다. 이는 근본적으로 ELQ가 단일 학습자보다 여러 학습자를 결합함으로써 부가적인 정보와 데이터를 결합함으로써 성능을 향상시키고, 실제로 원격탐사에서는 위성에서 얻어진 데이터에서 결측치가 발생하는 경우도 있기 때문에, 시공간상 다른 데이터를 결합하여 보다 정확한 예측치를 얻을 수 있기 때문이다.
앙상블 러닝은 앞서 말한 바와 같이 어떠한 문제를 해결하기 위해 여러 모델을 학습시켜 생성하고 그것들을 결합하는 일련의 방법을 말한다(Zhou, 2021). 여기서 어떠한 문제란 통상적으로 분류(classification) 또는 회귀(regression) 문제를 말한다. 또한, Zhou (2012)는 앙상블 기법이란 여러 학습자를 훈련시키고, 대표적으로 Boosting과 Bagging 등으로 대표되는 결합 방식 등을 사용하는 머신러닝의 한 방법이라고 설명했다. 따라서 앙상블 러닝의 생성과 결합에서 대두되는 두 가 지 이슈 중 첫 번째는, ‘어떠한 문제를 해결한 것인가?’이고, 두 번째는 ‘어떠한 방식으로 결합할 것인가?’이다.
앙상블 러닝은 Fig. 1과 같이 다수의 기본 학습자를 생성한 다음, 특정 결합 방식을 이용하여 그들을 결합한다. 앙상블 러닝은 단일 학습자에 의한 결과보다 나은 결과를 가져다 준다. 왜일까? 직관적으로 생각하면, 여러 다른 특성을 가진 것을 섞으면 그 결과는 최악의 것보다는 낫지만, 최고의 것보다는 더 안 좋은 결과를 가져온다(Zhou, 2021). Fig. 4는 앙상블 기법의 여러가지 예를 나타낸 것이다. 예시는 Zhou (2021)의 예를 이해하기 쉽게 국어, 수학, 영어의 예로 재구성하였다. 우리는 Alex, Brian 그리고 Cyril 3명의 학습자 또는 분류기(classifier)가 있다. 그 분류기는 각각 이진(binary) 분류를 실시한다. 즉 국어, 영어, 수학 과목에 대해 통과(O) 또는 낙제(X)를 할 수 있다. 여기서 앙상블 분류(classification of EL)는 투표(voting)를 통해 결정된다. 즉 3명 중 다수의 사람이 통과하면 그 과목에서 통과를 하는 것이고, 다수의 사람이 낙제를 하면 그 과목에서 낙제를 하는 것이다. Fig. 4 (Case #1)에서 보면 각각의 분류기는 약 66.6%의 성공률을 갖는 반면 앙상블은 100%의 성공률을 보인다. Fig. 4 (Case #2)에서는 각각의 분류기는 Fig. 4 (Case #1)와 동일한 성공율을 보이지만 각각의 분류기가 정확히 일치하므로, 앙상블 또한 66.6%의 성공률을 보이기 때문에 앙상블은 개별 분류기에 비해 전혀 도움이 되지 않는다. Fig. 4 (Case #3)에서는 각각의 분류기는 33.3%의 성공률을 보이지만, 앙상블은 이보다 더 나빠져 0%의 성공률을 보인다(Zhou, 2021). 이러한 예는 개별 학습자들(individual learners)이 ‘정확하고 다양해야(accurate and diverse)’ 개별 학습자들의 앙상블이 좋은 결과를 가져다 준다는 것을 알 수 있다(Zhou, 2021).
이처럼 여러 학습자를 결합시키는 경우, 앙상블의 능력은 개별 분류기의 일반화 능력보다 훨씬 강한 경우가 많으며, 이는 특히 weak learners (약한 학습자)가 결합할 때 훨씬 더 능력이 강해지는 경우가 많다(Zhou, 2021). 예를 들면, Freund and Schapire (1995)는 Adaptive Boosting (AdaBoost)이라는 meta-learning 알고리즘을 개발했는데, 이는 다수의 weak learners를 결합하여 강한 학습자(strong learner)를 만드는 앙상블 기법이다. Weak learner (boosting)라는 용어는 머신러닝에서 다수 분류기를 이용하여 오차를 줄이는 EL 기법의 하나로써 Kearns and Valiant (1988; 1989)가 ‘weak learnability’라는 개념을 처음 발표하면서 알려졌다. 그 이후 다수의 연구자들에 의해 boosting이 개발되었고, 그 대표적인 알고리즘이 AdaBoost이다(Freund and Schapire, 1995).
AdaBoost 알고리즘의 작동 개념에 대한 예가 Fig. 5와 Fig. 6에 설명되어 있다. 이 경우, 우리는 10개의 샘플을 -1 또는 +1로 분류하려고 한다. 편의상 –1과 +1은 숫자를 생략하고 부호로만 나타내기로 한다. 먼저 하나의 weak learner는 샘플들을 수직선이나 수평선을 이용하여 그 선의 왼쪽이나 오른쪽 또는 위나 아래를 (+) 또는 (–)로 분류한다. Fig. 5에서 각 행(row)의 그림은 시간(또는 라운드) t=1, 2, 3일 때의 분류를 나타낸다. 회색 영역은 가설(ht)에 의해 예측된 양(+)의 영역을 나타내고, 각 학습 라운드(Dt)에서 잘못 분류된 샘플을 원으로 표기했다. 각 샘플의 크기는 Dt에서 각각의 가중치를 나타낸다. Fig. 6는 각각의 라운드에서 얻어진 결과를 바탕으로 AdaBoost 알고리즘을 개념적으로 나타낸 그림이다. 그림에서 보는 바와 같이, 어떠한 단일 수직선 또는 수평선도 샘플을 완벽하게 분류하지 못하지만, AdaBoost는 3번의 반복(iteration)을 통해 양(positive)과 음(negative)으로 완벽히 분류할 수 있다.
이 때 약한 학습자인 ht는 weak function으로 나타내면 다음의 ht: X → {–1, +1}과 같다. 그리고 최초 훈련 데이터는 10개의 샘플로 (x1, y1), (x2, y2), …, (x10, y10)이며, xi, yi는 X평면(input space)에 포함되어 있고, 이것들은 label set (output space)인 Y={–1, +1}로 분류된다. 첫 번째 라운드(D1)의 경우에는 샘플의 크기가 같고, 이는 모든 샘플의 가중치가 같다는 것을 나타낸다. 이 때 첫 번째 약한 학습자인 h1이 수직 선으로 그어지면서 왼쪽을 양(+), 오른쪽을 음(–)으로 분류한다. 결과적으로 잘못 분류된 샘플들이 발견된다. 두 번째 라운드(D2)에서는 잘못 분류된 샘플들이 커지고(가중치가 높아짐), 제대로 분류된 샘플들은 작아진다(가중치가 작아짐). 그리고 두 번째 약한 학습자인 h2 수직선이 그어지고 세 개의 잘못된 샘플들을 찾는다. 마지막 라운드(D3)에서는 세 번째 약한 학습자인 h3 수평선이 그어지고, 전 단계에서 잘못 분류되었던 세 개의 샘플들을 올바르게 분류한다. 종합 하면, 이렇게 각 라운드에서 AdaBoost는 약한 학습자인 ht를 잘못 분류된 샘플을 고려한 가중치 αt를 이용하여 훈련시킨다. 그러면 최종적으로 다수의 약한 학습자 ht와 가중치 αt가 강한 분류기인 H(x)를 만들어 내며 이는 식(9)로 나타낼 수 있다.
이 때 AdaBoost 알고리즘은 Fig. 5에서 보는 바와 같이 적응적(adaptive)이다. 즉 약한 학습자는 회차를 반복하면서 가중치에 의해 업데이트 된다. 개념적으로 ELQ의 결합 알고리즘을 Adaboost 알고리즘의 형태로 나타내면, ELQ는 약한 학습자(weak learners)인 다수의 rating curves로 구성된 기본 학습자들이 여러 회차를 반복해서 가중치를 구하는 대신, 다수의 rating curves가 단일회차로 최소제곱법(least squares)을 통해 가중치를 구하여 약한 학습자를 결합하는 방식으로 설명할 수 있다(Kim et al., 2017b). 다만, 이러한 설명의 한계로써, AdaBoost는 통상적으로 분류(classification)의 문제이고, ELQ는 회귀(regression)의 문제이므로 weak learners 또는 base learners에 대한 생성 및 결합방식에 대한 접근법과 설명은 정확히 일치하지 않으며, 따라서 분류와 회귀에 대한 앙상블 기법은 다소 독립적으로 발전되어왔다(Mendes-Moreira et al., 2012).
ELQ는 식(7)과 같이 기본 학습자의 결합 방식으로 가중평균방식을 사용한다. 이는 다중선형회귀(multiple linear regression ormultivariate linear regression, MLR)와 비슷하지만 다른 특성을 갖는다. MLR은 종속변수(dependent variable)와 독립변수(independent variable) 사이에 다음과 같은 관계가 성립한다.
여기서 y는 종속변수, x는 독립변수, β는MLR의 계수이며, ε은 오차항을 말한다. i와 j는 각각 관측수와 설명변수(explanatory variables)의 개수를 말한다. 식(10)을 벡터형태로 나타내면 Y = Xβ + ε로 나타낼 수 있고, 이를 다시 행렬 형태로 나타내면 식(11)과 같이 나타낼 수 있다.
계수벡터인 β를 구하기 위해 최소제곱법을 이용하면 식(12)와 같이 mean squared error (MSE)를 최소화하는 값을 구할 수 있다.
따라서 β는 식(13)에 의해 구할 수 있다.
따라서
MLR과 EL은 모두 예측 모델링에 사용되지만MLR은 하나의 종속변수를 다수의 독립변수의 선형 조합으로 독립변수(설명변수)의 계수를 구하는 방법이다. 반면, EL은 여러 개의 개별 모델을 별도로 훈련시킨 다음 다수의 모델들을 결합시켜 더 나은 모델을 만드는 머신러닝 기법 중 하나이다. 두 방식의 차이점 중 하나는 MLR의 계수의 크기는 각 독립변수의 설명력과 전혀 관계가 없다는 것이고, MLR의 계수의 합 또한 임의적(arbitrary)이라는 것이다. 예를 들면 식(7)에서 ELQ의 가중치의 합은 1이 되어, 각각의 가중치는 각 모델들의 설명력을 표현해 주지만MLR의 경우 계수는 전체 모델에서 각 변수가 어떤 기여를 하는지 설명하지 못한다. 즉 MLR은 단일 모델이라고 볼 수 있고, EL은 다수 모델의 결합이라고 볼 수 있다.
Zhou (2021)가 말한 것처럼 EL의 성능은 정확성과 다양성에 기반을 둔다. 그렇다면 ‘ELQ의 정확성과 다양성은 어떻게 측정될 수 있는가?’가 궁금할 것이다. ELQ를 최초 개발한 K19에서는 성능을 보장하는 지표로써 보상정도(degree of compensation, IDoC)라는 것을 제시했다. 보상정도는 IDoC = (1 – rmn)으로 정의된다. 여기서 r은 상관계수(correlation coefficient)이며, m과 n은 결합된 VSs의 조합번호를 말한다. 다시 말해, 보상정도는 1에서 두 기본 학습자의 상관관계를 뺀 값이다. 즉, 두 기본 학습자의 상관관계가 높을수록 IDoC는 작아져서 성능향상 또한 작아지고, 반대로 두 기본 학습자의 상관관계가 작을 수록 IDoC는 커져서 성능향상이 커진다.
제시된 보상정도 지표 개발의 이론적 토대는 바로 편향-분산 분해(bias-variance decomposition)이다(Krogh and Vedelsby, 1995; Brown et al., 2005b; Kim, 2019). 이론적으로 앙상블의 일반화 오차(generalization error of ensemble)는 두 가지 항, 분산(variance)과 편향의 제곱(squared bias) 항으로 나눌 수 있으며, 식(15)와 같이 나타낼 수 있다.
여기서 (fELQ – Q)는 ELQ 예측값과 관측된 유출량의 차이이며, j는 후보 앙상블 함수의 수이다. 식(15) 등식의 왼쪽 항(편향의 제곱)은 각각의 후보 앙상블 함수의 오차의 제곱을 가중 평균한 합(sum of weighted squared errors of the individual candidate ensemble function) 이고, 등식의 오른쪽 첫째 항(분산)은 개별 후보 앙상블 함수와 최종 앙상블 함수 사이의 오차의 제곱을 가중 평균한 합(sum of weighted squared errors between the individual candidate ensemble function and final ensemble function)이다. 여기에서 후자를 ensemble ambiguity 라고 한다(Krogh and Vedelsby, 1995). 식(15)를 보면, 편향과 분산의 tradeoff를 발견할 수 있다. 예를 들면, fELQ의 편향이 크면, 식(15)에서 분산항(ensemble ambiguity)이 작아진다. Ensemble ambiguity가 작아진다는 것은 비슷한 함수들이 앙상블에 추가된다고 해도, 추가되는 함수들이 더 이상 앙상블의 성능 향상에 영향을 미치지 못하는 것을 의미한다. 즉, 분산항이 0에 가까워지면, ELQ의 오차는 개별 후보함수들의 오차의 제곱의 가중평균과 같아지므로 ELQ의 성능향상을 기대하기 어렵다(Krogh and Vedelsby, 1995). 따라서 ELQ의 앙상블 후보함수들 중에서 유사성을 판단하는 기준이 바로 보상정도가 되는 것이다.
후보함수들의 다양성과 더불어 고려해야 할 것은 개별 함수들의 정확성이다. EL이 weak learners에 기반한다고 해도 개별 학습자들의 정확성이 크다면, 그 앙상블도 더욱 정확할 가능성이 높다. 따라서 K21에서는 기본 학습자의 힘(power of base learner, PBL)이라는 지표를 도입했다. PBL은 fELQ에서 결합된 개별 학습자들의 NSE 평균으로 정의된다. K21에서는 PBL이 클수록 하천 유출량 예측성능이 좋았다. 한편, K21에서는 fBEM을 사용했기 때문에 각 개별학습자들의 가중치는 모두 동일했으나, 다수의 fBEM을 평균함으로써 fBEM이 fELQ와 같이 다른 가중치를 갖는 함수로 전환됨을 확인하였다. 즉, 다수의 fBEM을 평균한 함수는 fBEM의 앙상블 평균(ensemblemean of fBEM)이라고K21에서 정의하였으며, 그것은 다시 fELQ의 형식으로 전환된다.
여기서
앙상블은 개별 학습자보다 일반적으로 뛰어나고 그 성능은 정확도와 다양성에 의해 결정된다. 미계측 유역의 하천 유출량을 산정하는 알고리즘으로 ELQ가 K19에서 소개되었으며, K20과 K21에서 ELQ가 응용되어 적용되었다. 이러한 ELQ 논문 세 편을 인용한 국제논문은 24년 11월까지 76편의 논문에 94회 인용되었다. 본 장에서는 ELQ 논문을 인용한 논문에 대해서 간략히 언급하고, 그에 따라 ELQ가 원격탐사 수문학에 어떠한 기여를 했으며, ELQ가 갖는 수문학적 의의에 대해 고찰한다.
ELQ(K19)는 원격탐사 관련 저널 중 최고의 권위를 갖고 있는 저널 중 하나인 Remote Sensing of Environment에 2019년 처음 게재되었다. 그 이후 Envisat과 Jason-2의 다중 위성 고도계 미션을 이용하여 메콩강에 적용한 논문인 K20이 Remote Sensing에 2019년 11월에 게재되었다. 또한, 수문학 모델인 HRR과 위성 고도계를 이용하여 콩고강에 적용하여 in-situ Q의 도움없이 유출량을 산정한 논문인 K21은 Advances in Space Research 논문에 게재되었다. 이와 같이 ELQ 관련 세 편의 논문은 2019년 이후 총 76편의 국제 논문에서 94회 인용되었으며, 우리는 Google Scholar와 ResearchGate를 통해 ELQ관련 논문 인용을 확인하고 분석했다. 총 94회의 인용 횟수 중 K19가 60회, K20은 18회, K21은 16회 인용되었다. 각 저널에 인용된 횟수는 Table 2와 같다. ELQ 관련 논문은 각각 원격탐사, 지구물리학, 환경과학 및 컴퓨터 과학 등 폭 넓은 분야의 국제논문으로부터 인용되었다.
Table 2 . List of included journals and the corresponding count of citations.
Journal Title | Subject Area | Count |
---|---|---|
Remote Sensing | Remote Sensing | 11 |
Remote Sensing of Environment | Remote Sensing | 1 |
IEEE Journal of Selected Topics in Applied Earth Observations and | Remote Sensing | 1 |
International Journal of Applied Earth Observation and Geoinformation | Remote Sensing | 2 |
Remote Sensing Application: Society and Environment | Remote Sensing | 1 |
International Journal of Digital Earth | Remote Sensing | 1 |
Water | Water | 1 |
Water Resources Management | Water | 1 |
Reviews of Geophysics | Geophysics | 1 |
Geophysical Research Letters | Geophysics | 2 |
Science of The Total Environment | Environmental Sciences | 1 |
Water Resources Research | Environmental Sciences | 1 |
Journal of Hydrology | Environmental Sciences | 5 |
Hydrologic Sciences Journal | Environmental Sciences | 3 |
Environmental Modelling & Software | Environmental Sciences | 2 |
Advances in Space Research | Earth and Planetary Sciences | 2 |
Artificial Intelligence Review | Computer Sciences | 1 |
Not Included | N/A | 57 |
Total | 94 |
ELQ 논문들을 인용한 76편의 논문들을 인용 주제별로 묶으면 크게 다섯 개의 주제로 나눌 수 있다. 그 다섯 개의 주제는 ① 일반 주제, ② 머신러닝 및 앙상블 러닝, ③ 원격탐사 방법이나 머신러닝 방법을 이용한 수리변수의 도출, ④ 머신러닝 방법을 이용한 하천 유출량의 예측, ⑤ ELQ이다. 이러한 주제들은 Table 3에 나타나 있다. 일반사항 및 물 전략 분야에 7편의 논문, ML/EL에 관한 분야에서 10편의 논문, 수리변수 예측 및 하천 유출량 예측 분야에 각각 31편, 19편 그리고 논문에 ELQ를 직접적으로 언급한 수리·수문학 분야 논문 등이 9편이었다.
Table 3 . Research areas and the corresponding count of citations.
Research Area | Count |
---|---|
General / Water strategy | 7 |
ML / EL | 10 |
Inferring hydrological variables using RS and/or ML/EL | 31 |
ML technique to estimate discharge | 19 |
ELQ | 9 |
Total | 76 |
ELQ 논문들은 수리·수문학 분야에서 많이 인용되었는데, 앞서 언급한 바와 같이 Irrgang et al. (2020)은 논문에 하천 유출량 예측 기법으로 ELQ를 직접 언급하면서, ELQ (K19)가 최초로 머신러닝과 위성 고도계 데이터를 결합하여 기존 방법보다 우수한 결과를 내놓았다고 평가했다. Akpoti et al. (2024)은 아프리카 대륙의 하천 유출량에 대한 도전과 기회에 대한 논문에서 역시 ELQ를 언급하며, 기존 하천 유출량 예측 기법보다 향상된 방법을 제시했으며, 이러한 ELQ와 같은 기법은 SWOT 미션에서 수집된 데이터를 포함하여 향후 원격탐사 수문학에 많은 도움이 될 것으로 평가했다. Kechnit et al. (2024) 또한 ELQ를 언급하며, ELQ가 하도의 구조를 예측하고, 다양한 수리변수들을 결합하여 하천 유출량을 예측한다고 평가하였으며, 다른 몇몇 논문들도 ELQ를 언급하여 ELQ가 기존 방법과 대비되는 특징들을 기술했다(Garkoti and Kundapura, 2021; Dhote et al., 2021).
또한, 수리·수문학 분야에서 원격탐사 방법을 사용하여 수리변수들을 예측하는 연구논문(31편)에서 ELQ논문을 주로 인용했다. 그 중 하천의 바닥 등 하도 및 수중의 깊이와 모양을 추정하는 bathymetry 분야(Kwon et al., 2022; Gehring et al., 2022; Pôssa et al., 2020)에서 ELQ 논문이 인용되었으며, Bhuyian et al. (2020)은 bathymetry 분야의 연구에서 K19가 여러 위성 고도계를 결합함으로써 데이터의 시간 해상도에 대한 정밀도를 향상시켰다고 평가했다. 또한, ELQ 기법은 수리변수 중 하나인 Total Water Storage (TWS)의 변화(Gyawali et al., 2022; Wang et al., 2021; Yu et al., 2021; Sun et al., 2020), 수표면 면적 및 높이 변화(Chen et al., 2020; Markert et al., 2019; Carr et al., 2019; Li et al., 2023), 수문학 모델에 대한 검보정(Shastry et al., 2020), 기타 수리 변수들을 예측하는 리뷰 논문(Uereyen and Kuenzer, 2019; Chawla et al., 2020) 등에 인용되었다.
하천 유출량을 예측하는데 있어 ELQ기법을 머신러닝을 이용한 새로운 유출량 예측기법으로 평가하였는데, 그 중 Zounemat-Kermani et al. (2021)은 수문학 분야의 앙상블 러닝 패러다임이라는 제목의 리뷰 논문에서 ELQ (K19)를 EML 기법을 사용하여 기존의 방법보다 더 우수한 성능을 가진 알고리즘으로 소개하였다. 그리고 수문학에 적용된 EML 방법들을 언급하면서 앙상블 결합 방식에 따라 분류하였고, ELQ를 stacking 방법에 의한 앙상블 결합방식으로 분류하였다. 또한 원격탐사 데이터와 수문학 모델, 강우 데이터 등을 이용한 유출량 향상 등에 대한 논문들(Fok et al., 2021; 2023; Papacharalampous et al., 2023)에서 ELQ 논문을 이용했다.
여러가지 다양한 주제의 논문들에서 ML/EL 기법을 적용한 연구로 ELQ논문을 인용하였는데, 원격탐사를 통한 토양 염분 분류(Chen et al., 2024), 머신러닝 기법 중 boosting에 대한 연구(Kouadio et al., 2023) 등 다양한ML/EL 기법 연구(Naitam et al., 2023; Shahhosseini et al., 2022; Shi et al., 2020; Wang et al., 2020)에서도 ELQ관련 논문을 인용했다. 이러한 ELQ기법은 수리·수문학 뿐만 아니라 컴퓨터 과학 분야 논문에서도 인용되었는데 Artificial Intelligence Review에 게재된 Chen et al. (2024)의 논문에서는 단일 rating curve보다 다수의 rating curve를 결합하여 만든 ELQ의 성능에 대해 평가하며 imbalanced learning의 최신 연구동향 등을 제시하였다. 이 밖에 Lawford et al. (2023a; 2023b)은 물 전략 분야에 있어 공유하천의 경우에 다양한 국가를 지나가기 때문에 다중 고도계 사용이 유용하다고 판단했다.
원격탐사 수문학은 주로 위성에 의한 원격탐사 방법을 이용하여 수리·수문학 연구에 적용하는 학문으로써, 주로 앞서 언급한 수리학적 변수들을 결합할 때 그 변수들을 원격탐사로부터 획득한 데이터를 활용하여 하천 유출량 등을 산정하였다. 그 후 Gleason and Smith (2014)가AMHG기법을 사용하여 in-situQ데이터 없이도 하천 유출량을 산정하는 방법을 제안했다. 그러나 AMHG 기법은 in-situ Q 데이터를 사용하지 않은 만큼, 측정된 유출량과의 정확도는 약 20–30%의 차이가 있었으며, 주로 광학 영상에 의한 하천의 유효 폭을 관측 함으로써 유량에 따라 하천 폭의 변화가 작은 하천에 대해서는 부정확할 수 있다. 한편, K20에서는 메콩강에서 Stung Treng, Kratie, Tan Chau 세 곳에서 AMHG 기법에서 사용한 두 가지 변수의 관계(d = cQh: rating curve에서 log c와 h의 관계)를 그래프로 표현하였는데, 그 두 가지 변수의 결정계수는 0.94–0.98의 범위에 있었다. 이러한 높은 결정계수는 AMHG의 장점에도 불구하고, 하천 유출량의 정확도 향상에는 AMHG가 기여하는 바가 작다는 것을 의미한다.
ELQ(K19)가 원격탐사 수문학에 가장 큰 영향을 미친 것은 지리적으로 수 백 km 떨어진 지역의 위성 고도계 정보를 결합하여 한 지점의 하천 유출량을 더욱 정확하게 예측한다는 점이다. 이것은 Tobler의 지리학 제 1법칙(The first law of geography)에 정면으로 위배되는 논리로써, Tobler (1970)는 그의 논문에서 다음과 같이 말했다. “Everything is related to everything else, but near things aremore related than distant things.” 즉, 모든 것은 연관되어 있지만 가까운 것이 먼것보다 더욱 연관되어 있다는 지리학 1법칙에 의해, 원격탐사 수문학에서도 하천 유출량은 주로 관측지점에서 매우 가까운 곳이나 주로 수 km에서 수십 km 내외의 데이터만을 사용하여 하천 유출량을 예측하였다. 이것은 Leopold and Maddock (1953)이 사용한 방법인 관측지점에서 매우 가까운 곳(AHG)이나 하류의 관측지점과 연계되는 곳(DHG)에서 rating curve를 이용하거나, Manning’s equation을 이용하여 각종 수리변수들을 곱하는 방식으로 한 지점에서 하천 유출량을 산정하였다. 그 이후, 원격탐사 수문학에서도 그러한 방식들을 원격탐사 데이터로 치환하는 정도의 변형이 이루어졌다. 그러나 K19에서는 관측지점에서 수리변수들을 획득하는 것이 아니라, 심지어 수 백 km 떨어진 강의 하천 높이들을 한 식에 선형적으로 결합함으로써 더 나은 성능을 보여주었고, 이것은 원격탐사 수문학에서 기존의 패러다임을 바꾸는 결과였다. 현재까지도 이러한 방식으로 수 백 km 떨어진 수리변수들을 결합하여 더 나은 하천 유출량을 예측하는 것은 매우 드물다. 이는 ML/EL 기법을 단순히 적용하는 것이 아니라, ML/EL 기법을 적용하는 기본 학습자의 시공간적인 도메인이 기존의 도메인과는 전혀 다른 특성을 가진 것이 ELQ의 특징이다.
ELQ (K19)는 세계 최초로ML 기법을 위성 고도계 데이터를 이용하여 원격탐사 수문학에 적용한 사례이다(Irrgang et al., 2020). K19가 ML 기법을 적용한 최초의 사례라는 사실보다 더 중요한 것은 기존 원격탐사 수문학이 머물러 있던 원칙, 즉 가까운 것의 데이터를 이용하여 단일 rating curve나 Manning’s equation을 이용하여 하천 유출량을 산정하는 틀에서 벗어난 것에 대한 그 의미가 더욱 크다. K19 이후 K20에서는 한 걸음 더 나아가 다중 위성 고도계를 사용함으로써, 그 예측 가능 범위를 넓혔고, 또한 아프리카 콩고강 이후 동남아시아의 메콩강, TSL 때문에 복잡한 수문 환경을 가진 하천에서 보다 정확한 하천 유출량을 산정하였다. 또한, 메콩강과 같은 공유하천에서는 하천 유출량 데이터가 다른 나라와 공유되지 않는 경우도 빈번히 발생하기 때문에 각국의 물 전략에 있어서도 ELQ가 중요한 역할을 할 수 있다(Lawford et al., 2023a; 2023b).
K21에서는 in-situ Q 가 존재하지 않는 상황에서도 HRR 수문모델과 결합하여 훨씬 정확한 ELQ 기법을 개발했으며, 그 과정에서 ELQ 성능에 영향을 미치는 성능지표를 개발했다. 앙상블 러닝에서 성능에 중요한 영향을 미치는 것은 개별 학습자의 정확성과 다양성이고, 이것은 ELQ에서 PBL과 IDoC로 확인할 수 있다. 또한, in-situ Q 데이터를 획득할 수 없을 때에는 fBEM 몇몇 fBEM의 앙상블 평균인 —fBE—M을 통하여 정확한 ELQ 결과를 얻을 수 있었다.
향후 ELQ 연구에서는 현재 아프리카 콩고강과 동남아시아 메콩강 외에 다른 하천을 대상으로 ELQ를 적용하는 것이 필요하며, 기존 수문학 모델을 검보정하는 방식으로 다중 위성 고도계 데이터를 사용하는 것 또한 연구 과제 중 하나가 될 수 있다(Dhote et al., 2021; Du et al., 2020). 또한 지금까지 ELQ는 동종 학습자(H-Q relationship)를 사용하여 하천 유출량을 추정하였으나, 최근 SWOT 미션 및 소형 SAR 군집 위성 등이 다양하게 개발됨에 따라 다양한 수리변수들을 활용한 이종 학습자(H-Q / We-Q / S-Q relationships)를 기본 학습자로 한 ELQ 모델도 추후 개발되어야 할 것이다. 그리고 무엇보다도 in-situ Q 데이터의 도움없이 하천 유출량을 예측하는 것 또한 도전적인 과제로써, 이는 ELQ와 수문학 모델, AMHG 등 다양한 알고리즘과 모델, 데이터의 결합을 필요로 할 것이다. ELQ는 지금까지 원격탐사 수문학에 여러방면으로 기여했지만, ELQ 기법만으로는 하천 유출량의 정확한 예측은 쉽지 않다. 그러나 ELQ는 계산적으로 간단하면서 비교적 정확한 하천 유출량을 산정할 수 있는 기법 중 하나이다. 따라서 ELQ의 장점을 잘 보존하면서 그 알고리즘을 개선해 나갈 수 있는 연구가 추가적으로 필요하다.
본 논문은 육군3사관학교 부설 충성대연구소 2024년도 국고연구비 지원(24-11) 및 2025년도 논문게재비 지원을 받았음.
No potential conflict of interest relevant to this article was reported.
The supplementarymaterials for this reviewarticle can be found online at https://github.com/dkim-32/Review_ELQ.
Table 1 . Constraints to estimate Q using hydraulic variables based on RS methods.
Hydraulic variables | Constraints to estimate Q |
---|---|
Altimetry-derived H | Repeating cycles of 10 to 35 days. Sparse orbital spacings. |
We derived from satellite imagery | Less accurate results than those obtained from altimetry-derived H. |
S derived from SRTM DEM | Rarely used to estimate Q due to unavailability (i.e., difficult to obtain). |
SRTM: Shuttle Radar Topography Mission, DEM: Digital Elevation Model..
Table 2 . List of included journals and the corresponding count of citations.
Journal Title | Subject Area | Count |
---|---|---|
Remote Sensing | Remote Sensing | 11 |
Remote Sensing of Environment | Remote Sensing | 1 |
IEEE Journal of Selected Topics in Applied Earth Observations and | Remote Sensing | 1 |
International Journal of Applied Earth Observation and Geoinformation | Remote Sensing | 2 |
Remote Sensing Application: Society and Environment | Remote Sensing | 1 |
International Journal of Digital Earth | Remote Sensing | 1 |
Water | Water | 1 |
Water Resources Management | Water | 1 |
Reviews of Geophysics | Geophysics | 1 |
Geophysical Research Letters | Geophysics | 2 |
Science of The Total Environment | Environmental Sciences | 1 |
Water Resources Research | Environmental Sciences | 1 |
Journal of Hydrology | Environmental Sciences | 5 |
Hydrologic Sciences Journal | Environmental Sciences | 3 |
Environmental Modelling & Software | Environmental Sciences | 2 |
Advances in Space Research | Earth and Planetary Sciences | 2 |
Artificial Intelligence Review | Computer Sciences | 1 |
Not Included | N/A | 57 |
Total | 94 |
Table 3 . Research areas and the corresponding count of citations.
Research Area | Count |
---|---|
General / Water strategy | 7 |
ML / EL | 10 |
Inferring hydrological variables using RS and/or ML/EL | 31 |
ML technique to estimate discharge | 19 |
ELQ | 9 |
Total | 76 |
Dong-Young Kim, Deoksu Kim, Yubeen Jeong, Young-Heon Jo
Korean J. Remote Sens. 2024; 40(6): 1019-1026