Korean J. Remote Sens. 2024; 40(6): 1163-1176
Published online: December 31, 2024
https://doi.org/10.7780/kjrs.2024.40.6.1.23
© Korean Society of Remote Sensing
김리원1, 오홍종2, 박수영3, 양효진3, 이양원4*
1국립부경대학교 지구환경시스템과학부 공간정보시스템공학전공 석사과정생
2국토지리정보원 국토위성센터 연구사
3국토지리정보원 국토위성센터 연구관
4국립부경대학교 지구환경시스템과학부 위성정보융합공학전공 교수
Correspondence to : Yangwon Lee
E-mail: modconfi@pknu.ac.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
The current status of buildings and roads is an essential element of land monitoring and management, and is used in various fields such as urban planning, disaster management, and change detection. With the recent advancement of deep learning technology, high-performance semantic segmentation techniques have become commonplace, and research on applying them to building and road detection has begun to be actively conducted. However, most of these studies are conducted overseas, so there are still limitations in applying them to Korean field. Therefore, in this study, we constructed a building and road detection dataset optimised for Korea using high-resolution Compact Advanced Satellite (CAS500) images and digital maps, and developed a detection model using the latest semantic segmentation models, the unified perceptual parsing network (UPerNet) based on the sifted window (Swin) transformer and the masked-attention mask transformer (Mask2Former), and compared and evaluated their performance. In particular, a systematic refinement process was used to minimise the spatiotemporal discrepancies between the satellite imagery and the digital maps, and a temporary dataset consisting of only pure digital map labels was created separately to evaluate the effectiveness of the dataset built in this way. The results of the building and road detection experiments showed that the Mask2Former model using the Swin-L backbone performed the best with a building intersection over union (IoU) of 77.93 and a road IoU of 74.85. In addition, the model trained with the optimised dataset in this study performed qualitatively and quantitatively better than the model trained with the pure digital map dataset, proving its effectiveness. The methodology and results of this study are expected to contribute to the efficiency of land status information construction and monitoring in Korea, and furthermore, it is expected that it can serve as a practical basis for the advancement of land spatial information services and the establishment of related policies.
Keywords CAS500, Learning dataset, Building detection, Road detection, Semantic segmentation
국토현황정보는 국토의 현재 상태를 나타내는 핵심 데이터로서, 도시계획, 재난 예방, 변화 탐지, 디지털 도시 구축 등 다양한 분야에서 그 활용도가 증대되고 있다. 특히 건물과 도로 정보는 국토 관리의 근간이 되는 요소로, 개발제한구역 모니터링, 도로 공사 모니터링, 불법건축물 감시, 국공유지 조사, 지도 갱신 등 광범위한 분야에서 매우 중요한 역할을 담당한다. 이에 따라 국토현황정보에 대한정부 및 지자체의 관심이 지속적으로 높아지고 있으며, 보다 정확하고 효율적인 건물 및 도로 정보 추출 기술 개발이 요구되고 있다.
원격탐사 기술의 발전으로 다양한 시기와 지역에 대한 고해상도 영상 획득이 가능해지면서, 광범위한 지역에서 건물 및 도로를 효과적으로 파악할 수 있게 되었다(Hui et al., 2018). 이에 따라 원격탐사 영상을 활용하여 지표 특성 및 객체 정보를 자동으로 인식하려는 연구가 진행되기 시작했다. 건물 및 도로 추출의 초기 연구에서는 scaleinvariant feature transform (SIFT), gray level co-occurrence matrix (GLCM), support vector machine (SVM)과 같은 고전적인 기법들이 사용되었다(Lowe, 2004; Haralick et al., 1973; Cortes and Vapnik, 1995). 이외에도 Sirmacek and Unsalan (2008)은 불변 색상 특징과 그림자 정보를 활용한 건물 분류 방법을 제안하였으며, Ünsalan and Boyer (2011)는 그래프 기반 방법을 통해 도로 네트워크를 추출하는 기법을 제안하였다. 또한 Huang and Zhang (2011)은 morphological building index (MBI)를 제안하여 건물 객체를 강조하는 방법을 제시하였다. 그러나 이러한 전통적 기법들은 특징 추출과 분류 과정이 분리되어 있어 end-to-end 학습이 불가능하고, 수동으로 설계된 특징과 임계값에 크게 의존하기 때문에 복잡한 도시 환경에서 성능이 저하되는 한계가 존재했다(Inglada, 2007). 특히 도심 지역의 경우 건물의 밀집도가 높고 형태와 크기가 다양하며, 나무나 그림자 등의 방해 요소가 많아 전통적 기법으로는 정확한 건물 및 도로 추출이 쉽지 않았다.
최근 컴퓨팅 파워의 비약적인 발전에 따라 딥러닝 기법이 급속히 성장하면서, 원격탐사 분야에서도 인공지능 기반의 건물 및 도로 탐지 연구가 활발히 진행되기 시작했다. 딥러닝 기법은 대규모 데이터와 레이블을 기반으로 하는 end-to-end 학습이 가능하기 때문에, 건물의 복잡한 구조나 도로 네트워크, 자연 지형 등의 패턴을 효과적으로 식별하고 일반화할 수 있다는 장점이 있다(Chen et al., 2015). 딥러닝 기반의 건물 및 도로 탐지는 주로 시멘틱 세그멘테이션(semantic segmentation) 문제로 다루어지며, 이에 따라 fully convolutionalnetwork (FCN), U-Net (Long et al., 2015), SegNet (Badrinarayanan et al., 2017) 등 다양한 convolutional neural network (CNN) 기반의 모델이 건물 및 도로 탐지에도 적용되었다.
이러한 기본적인 CNN 모델들은 건물 및 도로의 형상과 맥락 정보를 동시에 고려할 수 있어 기존의 고전기법 대비 높은 성능을 보였으나, 건물의 색상, 크기, 구조, 밀집도, 그림자 등 다양한 특성을 모두 반영하기에는 한계가 존재하였고 이로 인해 복잡한 도심 지역에서는 여전히 정확도가 떨어지는 문제가 발생했다(Cao et al., 2021). 이에 따라 최근에는 건물 추출에 최적화된 다양한 응용모델들이 제안되기 시작했다. Yi et al. (2019)은 다중 스케일 정보를 활용하는 pyramid pooling module (PPM)과 채널 간 상관관계를 고려하는 channel attention module을 결합한 DeepResUNet을 제안하여 기존 모델 대비 우수한 성능을 보였으며, Pan et al. (2019)은 generative adversarial network (GAN) 구조를 도입하여 생성 모델과 판별 모델 간의 경쟁을 통해 보다 정교한 building footprint를 생성하는 방법을 제시하였다. 특히 최근에는 vision transformer (ViT)의 등장과 함께CNN의 한계를 극복한 transformer 기반의 시멘틱 세그멘테이션 모델이 각광받고 있는 추세이다(Dosovitskiy et al., 2020). Transformer는 self-attention 메커니즘을 통해 이미지의 전역적 정보를 효과적으로 학습하기 때문에 건물 및 도로와 같이 객체 간 관계가 중요한 작업에서 매우 유리하게 작용할 수 있다.
이처럼 딥러닝 기법의 발전과 함께 전 세계적으로 건물 및 도로 탐지를 위한 연구가 활발히 진행되고 있지만, 대부분의 연구들은 해외 도심 지역의 고해상도 항공영상 또는 오픈 데이터셋을 사용하고 있어 우리나라의 국토 모니터링 현업에 바로 적용하기에는 어려움이 있다. 우리나라는 사계절이 뚜렷하고 산악 지형이 많아 건물 및 도로의 형태나 특성이 해외와 다르며, 원격탐사 영상의 해상도나 촬영 조건도 상이하기 때문이다. 이러한 상황에서 정부와 지자체의 국토현황 정보에 대한 수요는 지속적으로 증가하고 있으나, 우리나라 고유의 데이터를 활용하여 건물 및 도로 탐지 모델을 최적화하려는 연구는 아직 활발하지 않은 실정이다. 실제로 국토교통부 및 한국자산관리공사 등 관련 기관에서는 여전히 수작업을 통해 국공유지 및 불법건축물 모니터링 등을 수행하고 있으며, 이에 인력과 시간을 감축할 수 있는 정교한 국토현황 정보 추출 기술을 필요로 하고 있지만 관련 기술 연구의 부족으로 현업에 적용하기가 쉽지 않다.
이러한 배경에서 2021년 발사된 국토위성(Compact Advanced Satellite 500, CAS500)은 현재 우리나라에서 운용 중인 위성 중 가장 높은 0.5 m급의 고해상도 영상을 제공함으로써 기존 상용 위성의 한계를 극복할 수 있는 대안으로 주목받고 있다. 특히 넓은 촬영 폭과 짧은 재방문 주기로 신속하고 광범위한 국토 모니터링에 적합하다. 또한 대규모 지역에 대한 다량의 영상 확보도 용이하기 때문에 딥러닝 모델 개발 학습용 데이터로도 활용도가 매우 높다(Park et al., 2022).
따라서 본 연구에서는 국토위성영상과 최신 딥러닝 기법을 활용하여 우리나라 국토에 최적화된 건물 및 도로 탐지 모델을 개발하는 것을 목표로 하였다. 이를 위해 국토위성영상과 수치지형도를 활용하여 건물 및 도로 데이터를 대량으로 구축하고, 이를 기반으로 개발된 다양한 딥러닝 모델의 성능을 비교 분석하였다. 특히 데이터셋 구축 과정에서 국토위성영상과 수치지형도 간의 불일치를 최소화하기 위해 레이블 정제 과정을 수행하였으며, transformer 기반의 state-of-the-art (SOTA) 시멘틱 세그멘테이션 모델을 도입하여 건물 및 도로 객체에 대한 탐지 성능을 대폭 향상시켰다. 본 연구의 데이터셋 및 탐지 모델을 통해 국토위성 기반의 국토 모니터링 자동화 가능성을 확인하였으며 향후 국토교통부, 한국국토정보공사 등 관련 기관에서 인공지능 기술을 활용한 국토현황정보 구축 및 모니터링 고도화에 기여할 수 있을 것으로 기대된다.
본 연구에서는 차세대중형위성 개발 사업의 1단계에서 개발되고 현재 운용 중에 있는 국토위성 1호기 영상을 사용하였다. 국토위성영상은 0.5 m의 공간해상도를 가진 전정색 영상과 2 m의 공간해상도를 가진 다중 분광 영상(B, G, R, N)으로 구성되어 있으며, 자세한 specification은 Table 1과 같다.
Table 1 CAS500-1 specifications
Satellite | Cas500-1 |
---|---|
Wavelength band | Visible: 0.40 μm–0.75 μm NIR: 0.75 μm–1.30 μm |
Resolution | MS: 2.0 m PAN: 0.5 m |
Orbit altitude | 528 km |
Swath width | > 12 km |
Local revisit period | ~ 4.6 days |
NIR: near-Infrared, MS: multi-spectral, PAN: panchromatic.
국토위성 영상은 원시영상(L0F)에서 표준영상 생성시스템(level processor)을 통해 방사보정 및 공간보정이 수행된 L1G로 처리되며, 이후 정사보정 과정을 거쳐 정밀보정영상인 L2G가 제작된다. 본 연구는 건물 및 도로의 정밀한 탐지를 주요 목적으로 하므로, 국토위성 영상 수준 중 L2G 영상을 국토지리정보원으로부터 제공받아 활용하였다. 특히 건물 및 도로의 효과적인 탐지를 위해 팬샤프닝(pansharpening)된 0.5 m 공간해상도의 Red, Blue, Green 밴드 영상을 사용하였다. 영상의 시간적 범위는 2022년 1월부터 2023년 12월로, 공간적 범위는 한반도 전역으로 설정하였으며, 이때 정상 영상에서의 건물 및 도로 탐지 가능성을 효과적으로 평가하기 위해 운량 0%, 촬영각(incidence angle) 5도 미만을 만족하는 영상만을 취득하였다.
마지막으로 한반도의 공간적, 시간적 다양성을 최대한 반영할 수 있도록 2차적으로 영상을 선별하여 데이터셋을 구성하였다(Fig. 1). 우선 공간적 다양성을 확보하기 위해서 연구 지역의 분포를 전략적으로 조정하여 건물 및 도로가 고밀도로 분포하는 도심지역, 비포장 도로가 산재하고 건물 밀도가 낮은 산간지역, 경작지와 비닐하우스가 우세하게 나타나는 농업지역 등 다양한 토지피복 유형이 데이터셋에 포함될 수 있도록 구성했다(Fig. 1a). 또한 시간적 다양성을 위해서는 모델이 계절적 변화에 대해서도 강건한(robust) 성능을 확보할 수 있도록 사계절 영상을 균등한 비율로 포함시켰다(Fig. 1b). 이와 같은 선별 과정을 거쳐 총 22장의 국토위성영상을 연구자료로 활용하였다.
국토정보플랫폼에서 제공하는 사용자친화형 국토위성영상인 표면반사율영상(L3A)은 대기보정이 완료된 자료이지만, L2G 영상은 기하 및 방사보정만이 완료된 영상으로 별도의 대기보정을 필요로 한다. 이에 본 연구에서는 선별한 국토위성영상에 상용 소프트웨어인 environment for visualizing images (ENVI)의 quick atmospheric correction (QUAC) 툴을 사용하여 대기보정을 수행하였다. QUAC는 대기보정을 위한 별도의 매개변수 없이 영상 자체의 스펙트럼 정보만을 활용하여 대기보정을 수행하는 방법으로, 신속하고 간편하게 대기보정을 수행할 수 있다는 장점이 있다.
수치지형도는 항공영상과 현지조사를 기반으로 제작된 국토 전반의 공간정보로서, 우리나라의 지형지물에 대한 가장 신뢰도 높은 공식도면이다. 특히 건물과 도로는 그 수량이 방대하여 데이터셋 구축을 위한 수작업 레이블링(labeling)에 많은 시간과 비용이 소요되는데, 수치지형도는 이들의 정확한 위치와 형상 정보를 포함하고 있어 학습 레이블로 활용하기에 매우 효과적이다. 이러한 이점을 고려하여 본 연구에서는 1:5000 수치지형도를 레이블링에 활용했다. 해당 자료는 국토정보플랫폼(https://map.ngii.go.kr/)에서 획득하였으며, 국토위성영상의 시간적 범위와 가장 적합한 2022년식 자료를 선택하였다. 1:5000 수치지형도는 총 107개의 레이어로 구성되어 있으며, 각 레이어는 지형지물의 특성에 따라 체계적으로 분류되어 있다. 본 연구에서는 이 중 건물 정보를 포함하는 면형 건물 레이어(N3A_B0010000)와 도로 정보를 포함하는 면형 도로 레이어(N3A_A0010000)를 추출하여 사용하였다.
본 연구의 목표는 국토위성영상을 활용하여 우리나라 국토 전반을 모니터링하는 데 최적화된 수치지형도 기반의 건물 및 도로 탐지 데이터셋을 구축하고, 이를 활용해 고성능 탐지 모델을 개발하는 것이다. 이를 위해 체계적인 데이터셋 구축 방안을 제시하고, 다양한 딥러닝 모델을 실험하여 각 모델의 탐지 성능을 비교 분석하였다.
딥러닝 모델, 특히 시멘틱 세그멘테이션 모델의 성공적인 개발을 위해서 가장 중요한 부분은 단시간 내에 양질의 데이터를 최대한 많이 확보하는 데 있다. 본 연구에서 구축하고자 하는 건물 및 도로 현황 정보는 그 양이 매우 방대하여 순수 수작업으로 정교한 레이블링을 수행하는 것은 불가능에 가까우나, 수치지형도와 같은 공간정보데이터베이스를 활용하면 레이블 생성에 소요되는 시간과 비용을 크게 절감할 수 있다. 그러나 수치지형도는 그 자체의 신뢰도를 떠나서 위성영상과의 시간적, 공간적 불일치로 인해 완벽한 정답지로 활용하기에는 여전히 한계가 존재한다. 특히 국토위성영상과 비교하였을 때 데이터 취득 시점이나 관측 방식 등의 차이로 인해 건물 및 도로의 형상 혹은 위치가 정확히 일치하지 않는 경우가 빈번하게 나타났다. 이에 본 연구에서는 효율적인 대규모 데이터셋 구축을 위해 수치지형도를 기반으로 하되, 데이터의 정확도 확보를 위해 다음과 같은 보정 과정을 통해 레이블을 생성하였다.
우선 대기보정이 완료된 국토위성 L2G 자료를 1:5000 도엽 단위로 분할하였다. 그리고 각 도엽 이미지에 최소-최대 정규화(min-max normalization)를 적용하여 픽셀값을 1–255 범위로 조정하였다. 이때, 절대적인 최소/최대값 대신 2퍼센타일 값과 98퍼센타일 값을 사용하였는데, 이는 이상치(outlier)의 영향을 최소화하기 위함이다. 전처리 완료 후에는 해당 도엽과 중첩되는 수치지형도의 건물 및 도로 레이어를 추출하여 레이블링을 수행하였다.
수작업 과정은 기하보정(geometric correction), 생성(addition), 삭제(removal), 형태 수정(featuremodification), 마스킹(masking)으로 구분된다(Table 2). 수치지형도는 우리나라 국토 전반에 대한 정답지로 사용되지만, 국토위성영상과의 공간적 불일치로 인해 건물 및 도로의 위치가 완벽하게 일치하지 않는 경우가 많다. 이를 보정하기 위해 위성영상과 수치지형도의 매칭 포인트를 수동으로 설정하고, 이를 일치시켜 기하보정을 실시하였다. 이는 좌표 정보가 없는 래스터(raster) 픽셀에 실세계 좌표를 할당하는 지오레퍼런싱(georeferencing) 기법을 활용한 것이다. 기하보정 이후에도 미세한 불일치가 발견될 경우에는 수작업으로 피처(feature)를 이동시켜 위치를 수정하였다.
Table 2 Types of operations for matching digital topographic maps with satellite imagery
Operation | Use case | Method |
---|---|---|
Geometric correction | Where spatial misalignment exists between satellite imagery and digital map | Georeferencing, manually |
Addition | Where objects are present in satellite imagery but absent in digital map | Manually |
Removal | Where objects are present in digital map but not visible in satellite imagery | |
Feature modification | Where feature shapes in satellite imagery differ from digital map features | |
Masking | Where areas need to be excluded from the dataset |
위성영상 취득 시기와 수치지형도의 제작 시점 차이로 인해 수치지형도 상의 피처와 위성영상 상의 실제 객체의 존재 여부가 일치하지 않는 경우도 있다. 재개발로 인해 이미 철거된 주택 단지가 수치지형도에는 여전히 존재하거나 공사가 완료된 포장도로가 수치지형도에는 반영되지 않은 사례가 이에 해당한다. 이러한 경우에는 국토위성영상을 기준으로 하여 피처를 생성하거나 삭제해 수치지형도를 수정하였다. 또한 숲에 가려 건물이 전혀 보이지 않거나 고속도로의 터널 구간이 위성영상 상에서는 도로가 단절된 것처럼 나타나는 것과 같이 실제로 소멸되지 않았더라도 위성영상에서는 보이지 않아 탐지가 불가능한 경우도 존재했다. 이러한 경우에는 실제로 객체가 존재하더라도 해당 부분을 삭제함으로써 모델이 잘못된 학습 패턴을 학습하지 않도록 하였다. 마지막으로 수치지형도에 그려진 피처가 위성영상 상의 객체와 모양이 다른 경우에는 형상 수정 과정을 통해 올바르게 조정하였다.
국토위성영상은 국가 보안시설(예: 공항, 항만, 발전소 등)에 대해 관련 법령에 따라 모자이크 처리된 형태로 제공된다. 그러나 간혹 일부 모자이크 지역의 주변 또는 내부에 수치지형도 피처가 존재하는 경우가 있는데, 이러한 데이터를 학습에 사용하면 딥러닝 모델의 성능이 저하될 뿐만 아니라 보안 지역 정보의 유출 위험이 발생할 수 있다. 따라서 본 연구에서는 모자이크 지역의 위성영상 및 레이블을 모두 마스킹하여 사용하였다. 또한 국토위성영상에서 간혹 발견되는 비정상적인 반사 현상 또한 지형지물을 가려 객체 탐지에 어려움을 주고, 탐지 정확도를 저하시킬 수 있으므로 마찬가지로 마스킹 처리하였다(Fig. 2). 이렇게 최종 수정을 마친 데이터는 건물 및 도로를 각각 래스터화하여 모델 학습에 활용할 최종 레이블로 가공했다.
딥러닝 기반 시멘틱 세그멘테이션 모델의 성능은 입력 이미지로부터 특징을 추출하는 백본(backbone)과 추출된 특징을 활용하여 세그멘테이션 작업을 수행하는 헤드(head)의 성능 및 구성에 크게 좌우된다. 특히 최근에는 자연어 처리 분야에서 큰 성공을 거둔 transformer 구조가 컴퓨터 비전에도 적용되면서 기존 CNN 기반 모델들의 성능을 상회하는 결과를 보여주고 있어 시멘틱 세그멘테이션 분야의 새로운 패러다임으로 주목받고 있다. 이에 본 연구에서는 뛰어난 특징 추출 능력으로 범용적으로 활용되는 transformer 기반 모델인 Swin transformer와 효율적인 피처 추출 및 탐지 성능으로 시멘틱 세그멘테이션 분야의 SOTA 성능을 보이고 있는Mask2Former를 중심으로 백본 구성을 달리하며 모델 실험을 진행하였다.
UPerNet은 다양한 백본 네크워크과 결합 가능하지만 주로 Swin transformer를 백본으로 하고 UPerNet을 디코더 헤드(decoder head)로 설정한 모델이 널리 사용된다. Swin transformer는 기존 ViT의 한계를 극복하기 위해 제안된 모델로, 계층적(hierarchical) 구조와 Swin 기반의 self-attention을 통해 다양한 패치에서 이미지의 특징을 효과적으로 추출할 수 있다. 기존ViT는 이미지를 고정된 크기의 패치로 분할하여 입력으로 사용하기 때문에 다양한 크기의 대상을 유연하게 처리하기 어렵고, 전체 이미지에 대해 전역적 self-attention을 수행하므로 계산 복잡도가 증가한다는 한계가 있었다. 반면 Swin transformer는 이미지를 패치로 분할한 뒤 이를 계층적으로 병합해 나가면서 피처를 추출하는데, 이때 각 단계의 패치 크기가 달라지면서 여러 형태의 패치에 대한 self-attention 연산을 통해 피처 맵(map)이 생성된다.
또한 self-attention 연산을 local window 내로 제한하면서도 window 간 연결을 허용하는 shifted window 방식을 사용하여 계산 복잡도를 선형으로 낮추고 전역적인 맥락 정보를 고려할 수 있게 하였다(Liu et al., 2021). 이러한 특징으로 Swin transformer는 이미지 내 객체의 크기 변화에 유연하게 대응할 수 있으며, 다양한 컴퓨터 비전 분야에서 범용적인 백본으로 사용되고 있다. UPerNet은 다양한 시각적 개념을 통합적으로 파싱(parsing)하는 모델로 feature pyramid network (FPN)와 PPM구조의 결합으로 구성되어 있다. FPN을 통해서 각기 다른 해상도의 피처 맵들을 통합하고, PPM으로는 다양한 스케일에서의 전역적인 맥락 정보를 포착함으로써 효과적인 특징 표현을 생성한다(Xiao et al., 2018).
최근 다양한 세그멘테이션 작업을 통합적으로 처리할 수 있고, 각 작업별 specialized architecture의 성능을 능가하는 Mask2Former가 등장했다. Mask2Former의 핵심 기술 중 하나는 기존 transformer 디코더의 cross-attention을 개선한 masked-attention 기법으로, 이는 각 query에 대해 예측 영역 내로 attention을 제한함으로써 지역적 특징을 더욱 효과적으로 추출하고 연산 효율성을 향상할 수 있게 한다. 또한 다중 스케일의 feature pyramid를 도입하여 transformer 디코더의 각 레이어에 저해상도에서 고해상도로 구성된 특징 피라미드를 순차적으로 전달함으로써 다양한 스케일의 객체에 대한 효과적인 처리가 가능하다. 이러한 Mask2Former는 단일 아키텍처(architecture)임에도 불구하고 다양한 세그멘테이션 분야에서 SOTA 성능을 달성하며, COCO, ADE20K 등 다양한 도메인의 데이터셋에 대해서도 일관되게 우수한 성능을 입증하였다(Cheng et al., 2022).
본 연구에서는 최종 구축된 데이터셋을 인공지능 알고리즘에 적용하여 건물 및 도로 각각에 대한 단일 클래스 모델을 구축하였다. 딥러닝 모델 학습을 위해 패치의 크기는 1,024 × 1,024로 설정하였으며, 이에 따라 건물 및 도로 각각 8,521장의 이미지 및 레이블이 생성되었다. 생성된 데이터는 객관적인 암맹평가 수행을 위해서 8:1:1의 비율로 분할하여 훈련(6,817장), 검증(852장), 시험(852장)에 할당하였다. 또한 분배 시 22장의 모든 위성영상이 훈련, 검증, 시험 데이터에 균등하게 포함되도록 하여 모델이 특정 영상에 편향되지 않고 다양한 이미지를 고르게 학습할 수 있도록 하였다. 학습 데이터는 평균 0, 표준편차 1이 되도록 표준화(standardization)하였다. 이는 딥러닝 모델의 학습 효율성을 높이고 로컬 미니마(local minima)에 빠질 위험을 줄여 수렴 속도와 안정성을 향상시킨다. 또한, 특징들 간의 스케일 차이로 인한 편향을 감소시킴으로써 모델의 일반화 성능을 높이는 데 기여할 수 있다.
모델 학습 및 평가는 mmsegmentation (https://github.com/openmmlab/mmsegmentation) 프레임워크(framework)를 활용하였다. 사용된 모델의 종류와 하이퍼파라미터(hyperparameter)는 Table 3과 같으며, 이때 Swin-B (base)와 Swin-L (large)의 차이는 모델의 크기와 계산 복잡도를 관할하는 feature dimension 값의 차이에 있다. 또한 Swin transformer 계열 백본의 성능을 평가하기 위해 ResNet101을 백본으로 하는 Mask2Former 모델에 대해서도 추가 실험을 진행하였다(Table 4). 모델 학습은 이터레이션(iteration)을 기준으로 반복 훈련되며 2,000 이터레이션마다 검증 스코어를 산출하도록 설정했다. 모든 학습이 끝난 뒤에는 컴퓨터 비전 분야의 표준 성능지표인 intersection over union (IoU)을 기준으로 가장 성능이 좋은 모델을 선정하여 시험 세트에 대한 평가를 진행하였다.
Table 3 Model architectures and hyperparameters of UPerNet-based models
Category | Parameter | UPerNet-Swin-B | UPerNet-Swin-L |
---|---|---|---|
Model architecture | Decoder | UPerNet Head | |
Backbone | Swin Transformer | ||
Window size | 7 | ||
Crop size | (512, 512) | ||
Feature dimension | 128 | 192 | |
Training hyperparameters | Optimizer | AdamW | |
Learning rate | 6e-5 | ||
Weight decay | 0.01 | ||
Batch size | 2 | ||
Max iteration | 160,000 |
Table 4 Model architectures and hyperparameters of Mask2Former-based models
Category | Parameter | Mask2Former-ResNet101 | Mask2Former-Swin-B | Mask2Former-Swin-L |
---|---|---|---|---|
Model architecture | Decoder | Mask2Former Head | ||
Backbone | ResNet101 | Swin-Ba) | Swin-Lb) | |
Pixel decoder | MS-Deform Attention | |||
Crop size | (512, 512) | |||
Window size | - | 12 | 12 | |
Training hyperparameters | Optimizer | AdamW | ||
Learning rate | 1e-4 | |||
Weight decay | 0.005 | |||
Batch size | 2 | |||
Max iteration | 160,000 |
a) Swin Transformer with feature dimension=128, b) Swin Transformer with feature dimension=192.
모델의 예측 결과는 이진분류로 출력되며, 건물 및 도로로 식별된 픽셀은 1, 그 외 영역으로 식별된 픽셀은 0으로 표현된다. 탐지 모델 예측 결과의 정량적 분석을 위해 예측 이미지(predicted)와 레이블(ground truth)을 비교하여 혼동행렬(confusionmatrix)을 생성하였다(Fig. 6). 혼동행렬은 True Positive (TP: 실제 건물/도로를 정확히 예측), True Negative (TN: 실제 건물/도로가 아닌 부분을 정확히 예측), False Positive (FP: 실제 건물/도로가 아닌 부분을 건물/도로로 잘못 예측), FalseNegative (FN: 실제 건물/도로를 건물/도로가 아닌 부분으로 잘못 예측)로 구성되며, 이를 기반으로 정확도(accuracy), 정밀도(precision), 재현율(recall), F1-score, IoU의 평가지표를 계산하여 모델의 성능을 종합적으로 분석하였다(식 2–6).
정확도는 영상 전체 픽셀 중 모델이 정확히 예측한 픽셀의 비율로 모델의 성능을 직관적으로 나타내지만 클래스 불균형이 있는 경우에는 신뢰도가 떨어질 수 있는 지표이다. 정밀도는 건물/도로로 예측한 픽셀 중 실제 건물/도로인 픽셀의 비율로 과탐지 수준을 평가하는 데 사용되고, 재현율은 실제 건물/도로 픽셀 중 정확히 예측된 픽셀의 비율로 미탐지 수준을 평가하는 지표로 사용된다. F1-score는 이러한 정밀도와 재현율의 조화평균으로, 과대/과소 추정 간의 균형을 평가하는 종합적인 지표로 사용된다. 마지막으로 IoU는 실제값과 예측값 간의 교집합 영역을 합집합 영역으로 나눈 값으로, 세그멘테이션 분야에서 가장 보편적으로 사용되는 중요한 평가 지표라 할 수 있다.
Table 5는 각 건물 탐지 모델의 정량적 평가 결과를 나타내며, Fig. 7은 모델별 예측 결과를 나타낸다. 실험 결과, Swin transformer를 백본 네트워크로 사용한 모델들이 건물 IoU 0.74 이상, 정밀도 및 재현율 0.84 이상으로 우수한 성능을 나타냈다. ResNet101 백본을 사용한 Mask2Former 모델도 건물 IoU 71.83, 정밀도 및 재현율 각각 82.95, 84.27로 독립적으로는 어느 정도 유의미한 성능을 보였으나 Swin transformer 백본 모델에 비해서는 상대적으로 낮게 나타났다. 전 지표 상 가장 높은 성능을 보인 모델은 Swin-L 백본의Mask2Former로, 건물 IoU가 77.93으로 높게 나타났다. 또한 정밀도와 재현율도 각각 88.33, 86.88로 계산되었는데, 이는 과탐지 및 오탐지의 어느 한 쪽에 크게 치우치지 않고 균형 잡힌 성능을 가졌음을 보여준다.
Table 5 Test performance of different models for building segmentation
Base model | Backbone | Accuracy | F1-score | Precision | Recall | IoU |
---|---|---|---|---|---|---|
Mask2Former | ResNet101 | 97.1 | 83.6 | 82.95 | 84.27 | 71.83 |
Swin-B | 97.77 | 87.19 | 87.96 | 86.44 | 77.29 | |
Swin-L | 97.84 | 87.6 | 88.33 | 86.88 | 77.93 | |
UPerNet | Swin-B | 97.71 | 86.76 | 88.25 | 85.31 | 76.61 |
Swin-L | 97.48 | 85.49 | 86.56 | 84.44 | 74.65 |
정성적 평가 결과, 우선 Figs. 7(a, b)와 같이 건물이 밀집된 지역에서 모든 모델의 예측 결과가 실제 건물 레이블과 대부분 일치하는 모습을 보였다. 특히 반듯한 사각형 형태가 아닌 건물 객체에 대해서도 그 형상을 올바르게 잘 예측하였다. Fig. 7(c)는 겨울철 산지 지역의 영상으로, 건물의 지붕이나 옥상, 도로에 눈이 쌓여 전반적으로 하얗게 보이기 때문에 정교한 탐지가 쉽지 않다. 그러나 본 연구의 모델들은 이러한 겨울 영상에서도 건물을 대부분 잘 추출하는 모습을 보였다.
일반적인 농업용 비닐하우스는 건축법 시행령과 대법원 판례에 따라 건물로 판단하지 않으며, 이에 본 연구에서도 비닐하우스를 제외한 건물만을 탐지하도록 데이터셋을 구성했다. 그 결과, 대부분의 모델에서 비닐하우스의 광학적 특성을 학습하여 오탐지하지 않은 것으로 나타났다. 그러나Mask2Former-ResNet101 모델의 경우 간혹 비닐하우스를 건물로 오탐지하는 모습을 보이기도 했다(Fig. 7d). 또한 Fig. 7(e)와 같이 도심지에서는 고층건물로 인해 그림자가 지는 경우가 많이 발생하는데, 본 연구의 모델들은 그림자로 가려져 일부가 어두워진 건물도 잘 탐지하는 모습을 보였다.
다양한 규모와 형태를 가지며 연속적인 구조를 띠는 특성으로 인해 탐지가 상대적으로 까다로움에도 불구하고 모든 모델의 도로 IoU가 0.7 이상, 가장 좋은Mask2Former-Swin-L 모델의 도로 IoU는 74.85로 충분히 좋은 성능을 보였다. 또한 백본 성능 비교 결과로는 건물 탐지와 마찬가지로 Swin transformer 백본이 ResNet 백본보다 현저히 높은 탐지 성능을 보였다(Table 6). 본 연구에서 정의된 도로는 일반도로, 고속도로, 이면도로, 농로, 기타 비포장도로 등으로, 수치지형도 상에 등록되어 있는 모든 도로를 대상으로 하여 탐지를 수행하였다. 그 결과 대부분의 모델이 도로의 종류에 큰 관계 없이 전반적으로 레이블과 일치하는 양상을 보였으며 특히 Mask2Former-Swin-L 모델은 도로가 도중에 끊기게 나타나는 사례가 가장 적게 나타남으로써 도로의 연속성이 가장 잘 학습된 것으로 보였다(Fig. 8). 도로의 종류에 따라 성능을 세부적으로 분석한 결과 우선 Figs. 8(a, d)의 큰 도로와 같이 넓고 명확한 도로에서는 모든 모델의 탐지 성능이 매우 우수하게 나타났다. 또한 Fig. 8(b)와 같은 복잡한 도심지 도로망에서도 전반적인 네트워크 구조를 높은 정확도로 탐지하는 모습을 보였다.
Table 6 Test performance of different models for road segmentation
Base model | Backbone | Accuracy | F1-score | Precision | Recall | IoU |
---|---|---|---|---|---|---|
Mask2Former | Resnet-101 | 96.96 | 82.99 | 85.25 | 80.85 | 70.93 |
Swin-B | 97.34 | 85.3 | 86.78 | 83.87 | 74.36 | |
Swin-L | 97.4 | 85.62 | 87.09 | 84.2 | 74.85 | |
UPerNet | Swin-B | 97.25 | 84.55 | 87.37 | 81.91 | 73.24 |
Swin-L | 96.93 | 82.47 | 86.64 | 78.69 | 70.17 |
이외에도 복잡하게 얽혀 있는 농지의 도로(Fig. 8c)나 수로와 유사하여 오탐지하기 쉬운 얇은 농로(Fig. 8d)의 조건에서도 본 모델들은 도로를 성공적으로 탐지하였다. 그러나 길(도로)과 주변의 경계가 너무 모호하여 인식하기 힘든 경우, 농지의 산길이나 도심지의 골목길과 같이 지나치게 좁고 얇은 도로의 경우에는 세부적인 탐지 성능이 다소 떨어지게 나타났다. 산지의 경우 구불구불한 협로가 많아 탐지가 어려운데, 특히 눈이 쌓인 겨울철(Fig. 8e)에는 이러한 어려움이 더욱 가중된다. 그럼에도 불구하고 본 모델들은 겨울 영상에 대해서도 전반적인 도로 네트워크를 잘 탐지하는 모습을 보였다.
본 연구에서는 국토위성영상을 활용한 정확한 건물 및 도로 탐지 모델 개발을 위해 수치지형도 기반의 데이터셋을 국토위성영상에 최적화하여 레이블을 수정하였다. 그리고 최적화된 레이블의 유의미성을 검증하기 위해 순수 수치지형도 레이블을 사용한 데이터셋과 모델 성능의 비교 실험을 수행하였다. 실험에는 가장 우수한 성능을 보인 Swin-L 백본의 Mask2Former 모델을 사용하였으며, 하이퍼파 라미터와 모델 구성을 동일하게 적용하여 데이터셋의 차이에 따른 영향을 분석하였다. 또한, 이미지 및 학습 데이터셋 구성의 영향을 배제하고 레이블의 차이에 따른 결과만을 평가하기 위해 학습 이미지는 동일하게 유지하고 레이블만을 수정하였다.
본 연구에서 사용된 데이터셋과 순수 수치지형도 데이터셋의 건물과 도로 레이블 및 탐지 결과는 Fig. 9와 10에 제시하였다. 각 Fig에서 (a), (e)는 제안된 데이터셋의 레이블, (b), (f)는 순수 수치지형도 데이터셋의 레이블, (c), (g)는 제안된 데이터셋으로 학습한 모델의 시험 결과, (d), (h)는 순수 수치지형도 데이터셋으로 학습한 모델의 시험 결과이다. Fig. 9와 10의 건물 및 도로 탐지의 각 케이스별 결과에 대한 single IoU는 Table 7에서 확인할 수 있다.
Table 7 IoU evaluation of optimized and original labels for building and road detection
Target | Case | Optimized | Original | δ IoUa) |
---|---|---|---|---|
Building IoU | #1 | 75.97 | 21.66 | 54.30 |
#2 | 72.52 | 42.76 | 30.76 | |
Road IoU | #1 | 83.10 | 60.10 | 23.00 |
#2 | 75.38 | 38.85 | 36.52 |
a) δ IoU = Optimized IoU - Original IoU.
우선 건물 탐지에서 가장 두드러지게 나타난 문제점은 일부 지역에서 나타난 수치지형도와 위성영상 사이의 기하적 불일치였다. Case #1은 2023년 9월에 촬영된 경기도 안양시 영상으로, 수치지형도와 현저한 기하적 불일치가 존재했다. 제안된 데이터셋을 사용한 Fig. 9(c)에서는 예측 결과가 실제 건물의 위치 및 형상의 정밀한 정합성을 보이며 해당 IoU가 75.97로 높게 나타난 반면, Fig. 9(d)에서는 예측 결과가 실제 건물의 위치와 상당한 오차를 나타내고 밀집 구역의 개별 건물 형상을 정확히 탐지하지 못하였으며 그 IoU 또한 21.66으로 낮게 나타났다. 또한 case #2는 2022년 2월 촬영된 경상북도 영주시의 영상인데, 왼쪽 상단은 대형 비닐하우스 단지로서 Fig. 9(b)의 수치지형도에서도 건물로 표현되지 않은 곳으로 두 모델 모두 건물로 탐지하지 않는 것이 정상이다. 그러나 Fig. 9(g)에서는 해당 지역을 정상적으로 탐지하지 않은 반면, Fig. 9(e)에서는 비닐하우스의 일부를 건물로 오탐지 하는 모습을 보였다.
도로 탐지의 경우, 도로 네트워크 탐지 성능과 보이지 않는 도로를 예측하는 부분에서 문제가 발생했다. Case #1과 같은 터널은 Fig. 10(b)와 같이 위성영상에서 도로가 보이지 않더라도 기존 수치지형도에는 모두 도로로 표시되어 있다. 본 연구에서는 최적화 데이터셋 구축 시 이처럼 보이지 않는 부분의 도로는 삭제하였는데, 산으로 뒤덮인 터널이 도로로 레이블링 될 경우 산지에 대한 모델의 일관된 학습에 어려움을 줄 것으로 판단했기 때문이다. 실제로 순수 수치지형도를 사용한 Fig. 10(d)에서는 해당 부분의 일부를 도로로 탐지하였지만, 내부 도로 형태를 제대로 표현하지 못하고 도중에 뭉툭하게 끊어지는 결과를 보였다.
또한 건물만큼 그 강도와 빈도가 심하지는 않으나 일부 영상에서 도로의 기하적 불일치도 여전히 존재했다(Fig. 10f). 이로 인해 case #2와 같이 실제 도로와 모델이 예측한 도로가 약간 어긋나는 경우가 발생했으며, 도로 네트워크 형상을 탐지하는 성능도 Fig. 10(g)보다 Fig. 10(h)에서 더욱 떨어지게 나타났다. 또한 그 IoU도 각각 75.38, 38.85로 현저한 차이를 보였다. 이러한 결과를 종합해 볼 때, 본 연구에서 제안하는 건물 및 도로 최적화 데이터셋이 단순 수치지형도만을 사용하는 것보다 더욱 정확한 레이블을 제공함과 동시에 일관성 또한 유지함으로써 모델의 뛰어난 정성적 및 정량적 성능을 보다 보장할 수 있는 것으로 판단된다.
본 연구에서는 국토위성영상의 건물 및 도로 자동 탐지를 위한 고성능 딥러닝 모델 개발을 목표로, 수치지형도의 건물 및 도로 레이어를 기반으로 한 최적화된 학습 데이터셋을 구축하였다. 국토위성영상과의 정합성 향상을 위해 수치지형도를 수정하고 모델 학습에 방해되는 요소를 마스킹 처리하였으며, Swin transformer를 백본으로 하는 UPerNet과 Mask2Former 모델을 활용하여 건물 및 도로 탐지를 수행하였다. 실험 결과, 모든 모델이 우수한 탐지 성능을 보였으며 특히 Swin-L 백본 기반의 Mask2Former 모델이 건물 IoU 77.93, 도로 IoU 74.85로 가장 높은 성능을 달성하였다. 이는 Swin-L의 효과적인 특징 추출 능력과 Mask2Former의 정교한 세그멘테이션 성능이 결합된 결과로 사료된다.
또한 본 연구에서 구축한 데이터셋의 효용성을 평가하기 위해 순 수 수치지형도 레이블로 구성된 비교평가용 데이터셋을 구축하여 학습 결과를 비교 분석하였다. 그 결과, 본 연구에서 구축한 데이터셋이 국토위성영상과의 시간적·기하적 불일치가 존재하는 순수 수치지형도 레이블 데이터셋 대비 우수한 성능을 보였다. 이는 본 연구에서 구축한 데이터셋이 국토위성영상 기반의 건물 및 도로 탐지에 효과적임을 입증할 뿐만 아니라, 향후 수치지형도 갱신을 위한 참고자료로도 활용될 수 있음을 시사한다.
향후 연구에서는 다종 위성영상의 통합적 활용, 데이터 고도화, 하이퍼파라미터 최적화 등을 통해 모델의 성능을 개선하고자 한다. 또한 본 연구에서 구축된 양질의 데이터셋과 학습된 모델을 기반으로 변화탐지, 불법 건축물 모니터링 등 실용적 활용 방안을 모색할 예정이다. 본 연구의 활용산출물은 국토위성영상 분석 과정의 인력과 시간을 최소화하고, 향후 국토 공간정보서비스의 고도화 및 관련 정책 수립을 위한 실증적 기초자료로 사용될 수 있을 것으로 기대된다.
이 논문은 국토지리정보원 2024년 연구용역 “국토위성 기반 국토현 황정보 추출 기술 개발” 사업의 지원을 받았습니다.
No potential conflict of interest relevant to this article was reported.
Korean J. Remote Sens. 2024; 40(6): 1163-1176
Published online December 31, 2024 https://doi.org/10.7780/kjrs.2024.40.6.1.23
Copyright © Korean Society of Remote Sensing.
김리원1, 오홍종2, 박수영3, 양효진3, 이양원4*
1국립부경대학교 지구환경시스템과학부 공간정보시스템공학전공 석사과정생
2국토지리정보원 국토위성센터 연구사
3국토지리정보원 국토위성센터 연구관
4국립부경대학교 지구환경시스템과학부 위성정보융합공학전공 교수
Riwon Kim1, Hongjong Oh2, Suyoung Park3, Hyojin Yang3, Yangwon Lee4*
1Master Student, Major of Spatial Information Engineering, Division of Earth Environmental System Sciences, Pukyong National University, Busan, Republic of Korea
2Researcher, National Land Satellite Center, National Geographic Information Institute, Suwon, Republic of Korea
3Research Officer, National Land Satellite Center, National Geographic Information Institute, Suwon, Republic of Korea
4Professor, Major of Geomatics Engineering, Division of Earth Environmental System Science, Pukyong National University, Busan, Republic of Korea
Correspondence to:Yangwon Lee
E-mail: modconfi@pknu.ac.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
The current status of buildings and roads is an essential element of land monitoring and management, and is used in various fields such as urban planning, disaster management, and change detection. With the recent advancement of deep learning technology, high-performance semantic segmentation techniques have become commonplace, and research on applying them to building and road detection has begun to be actively conducted. However, most of these studies are conducted overseas, so there are still limitations in applying them to Korean field. Therefore, in this study, we constructed a building and road detection dataset optimised for Korea using high-resolution Compact Advanced Satellite (CAS500) images and digital maps, and developed a detection model using the latest semantic segmentation models, the unified perceptual parsing network (UPerNet) based on the sifted window (Swin) transformer and the masked-attention mask transformer (Mask2Former), and compared and evaluated their performance. In particular, a systematic refinement process was used to minimise the spatiotemporal discrepancies between the satellite imagery and the digital maps, and a temporary dataset consisting of only pure digital map labels was created separately to evaluate the effectiveness of the dataset built in this way. The results of the building and road detection experiments showed that the Mask2Former model using the Swin-L backbone performed the best with a building intersection over union (IoU) of 77.93 and a road IoU of 74.85. In addition, the model trained with the optimised dataset in this study performed qualitatively and quantitatively better than the model trained with the pure digital map dataset, proving its effectiveness. The methodology and results of this study are expected to contribute to the efficiency of land status information construction and monitoring in Korea, and furthermore, it is expected that it can serve as a practical basis for the advancement of land spatial information services and the establishment of related policies.
Keywords: CAS500, Learning dataset, Building detection, Road detection, Semantic segmentation
국토현황정보는 국토의 현재 상태를 나타내는 핵심 데이터로서, 도시계획, 재난 예방, 변화 탐지, 디지털 도시 구축 등 다양한 분야에서 그 활용도가 증대되고 있다. 특히 건물과 도로 정보는 국토 관리의 근간이 되는 요소로, 개발제한구역 모니터링, 도로 공사 모니터링, 불법건축물 감시, 국공유지 조사, 지도 갱신 등 광범위한 분야에서 매우 중요한 역할을 담당한다. 이에 따라 국토현황정보에 대한정부 및 지자체의 관심이 지속적으로 높아지고 있으며, 보다 정확하고 효율적인 건물 및 도로 정보 추출 기술 개발이 요구되고 있다.
원격탐사 기술의 발전으로 다양한 시기와 지역에 대한 고해상도 영상 획득이 가능해지면서, 광범위한 지역에서 건물 및 도로를 효과적으로 파악할 수 있게 되었다(Hui et al., 2018). 이에 따라 원격탐사 영상을 활용하여 지표 특성 및 객체 정보를 자동으로 인식하려는 연구가 진행되기 시작했다. 건물 및 도로 추출의 초기 연구에서는 scaleinvariant feature transform (SIFT), gray level co-occurrence matrix (GLCM), support vector machine (SVM)과 같은 고전적인 기법들이 사용되었다(Lowe, 2004; Haralick et al., 1973; Cortes and Vapnik, 1995). 이외에도 Sirmacek and Unsalan (2008)은 불변 색상 특징과 그림자 정보를 활용한 건물 분류 방법을 제안하였으며, Ünsalan and Boyer (2011)는 그래프 기반 방법을 통해 도로 네트워크를 추출하는 기법을 제안하였다. 또한 Huang and Zhang (2011)은 morphological building index (MBI)를 제안하여 건물 객체를 강조하는 방법을 제시하였다. 그러나 이러한 전통적 기법들은 특징 추출과 분류 과정이 분리되어 있어 end-to-end 학습이 불가능하고, 수동으로 설계된 특징과 임계값에 크게 의존하기 때문에 복잡한 도시 환경에서 성능이 저하되는 한계가 존재했다(Inglada, 2007). 특히 도심 지역의 경우 건물의 밀집도가 높고 형태와 크기가 다양하며, 나무나 그림자 등의 방해 요소가 많아 전통적 기법으로는 정확한 건물 및 도로 추출이 쉽지 않았다.
최근 컴퓨팅 파워의 비약적인 발전에 따라 딥러닝 기법이 급속히 성장하면서, 원격탐사 분야에서도 인공지능 기반의 건물 및 도로 탐지 연구가 활발히 진행되기 시작했다. 딥러닝 기법은 대규모 데이터와 레이블을 기반으로 하는 end-to-end 학습이 가능하기 때문에, 건물의 복잡한 구조나 도로 네트워크, 자연 지형 등의 패턴을 효과적으로 식별하고 일반화할 수 있다는 장점이 있다(Chen et al., 2015). 딥러닝 기반의 건물 및 도로 탐지는 주로 시멘틱 세그멘테이션(semantic segmentation) 문제로 다루어지며, 이에 따라 fully convolutionalnetwork (FCN), U-Net (Long et al., 2015), SegNet (Badrinarayanan et al., 2017) 등 다양한 convolutional neural network (CNN) 기반의 모델이 건물 및 도로 탐지에도 적용되었다.
이러한 기본적인 CNN 모델들은 건물 및 도로의 형상과 맥락 정보를 동시에 고려할 수 있어 기존의 고전기법 대비 높은 성능을 보였으나, 건물의 색상, 크기, 구조, 밀집도, 그림자 등 다양한 특성을 모두 반영하기에는 한계가 존재하였고 이로 인해 복잡한 도심 지역에서는 여전히 정확도가 떨어지는 문제가 발생했다(Cao et al., 2021). 이에 따라 최근에는 건물 추출에 최적화된 다양한 응용모델들이 제안되기 시작했다. Yi et al. (2019)은 다중 스케일 정보를 활용하는 pyramid pooling module (PPM)과 채널 간 상관관계를 고려하는 channel attention module을 결합한 DeepResUNet을 제안하여 기존 모델 대비 우수한 성능을 보였으며, Pan et al. (2019)은 generative adversarial network (GAN) 구조를 도입하여 생성 모델과 판별 모델 간의 경쟁을 통해 보다 정교한 building footprint를 생성하는 방법을 제시하였다. 특히 최근에는 vision transformer (ViT)의 등장과 함께CNN의 한계를 극복한 transformer 기반의 시멘틱 세그멘테이션 모델이 각광받고 있는 추세이다(Dosovitskiy et al., 2020). Transformer는 self-attention 메커니즘을 통해 이미지의 전역적 정보를 효과적으로 학습하기 때문에 건물 및 도로와 같이 객체 간 관계가 중요한 작업에서 매우 유리하게 작용할 수 있다.
이처럼 딥러닝 기법의 발전과 함께 전 세계적으로 건물 및 도로 탐지를 위한 연구가 활발히 진행되고 있지만, 대부분의 연구들은 해외 도심 지역의 고해상도 항공영상 또는 오픈 데이터셋을 사용하고 있어 우리나라의 국토 모니터링 현업에 바로 적용하기에는 어려움이 있다. 우리나라는 사계절이 뚜렷하고 산악 지형이 많아 건물 및 도로의 형태나 특성이 해외와 다르며, 원격탐사 영상의 해상도나 촬영 조건도 상이하기 때문이다. 이러한 상황에서 정부와 지자체의 국토현황 정보에 대한 수요는 지속적으로 증가하고 있으나, 우리나라 고유의 데이터를 활용하여 건물 및 도로 탐지 모델을 최적화하려는 연구는 아직 활발하지 않은 실정이다. 실제로 국토교통부 및 한국자산관리공사 등 관련 기관에서는 여전히 수작업을 통해 국공유지 및 불법건축물 모니터링 등을 수행하고 있으며, 이에 인력과 시간을 감축할 수 있는 정교한 국토현황 정보 추출 기술을 필요로 하고 있지만 관련 기술 연구의 부족으로 현업에 적용하기가 쉽지 않다.
이러한 배경에서 2021년 발사된 국토위성(Compact Advanced Satellite 500, CAS500)은 현재 우리나라에서 운용 중인 위성 중 가장 높은 0.5 m급의 고해상도 영상을 제공함으로써 기존 상용 위성의 한계를 극복할 수 있는 대안으로 주목받고 있다. 특히 넓은 촬영 폭과 짧은 재방문 주기로 신속하고 광범위한 국토 모니터링에 적합하다. 또한 대규모 지역에 대한 다량의 영상 확보도 용이하기 때문에 딥러닝 모델 개발 학습용 데이터로도 활용도가 매우 높다(Park et al., 2022).
따라서 본 연구에서는 국토위성영상과 최신 딥러닝 기법을 활용하여 우리나라 국토에 최적화된 건물 및 도로 탐지 모델을 개발하는 것을 목표로 하였다. 이를 위해 국토위성영상과 수치지형도를 활용하여 건물 및 도로 데이터를 대량으로 구축하고, 이를 기반으로 개발된 다양한 딥러닝 모델의 성능을 비교 분석하였다. 특히 데이터셋 구축 과정에서 국토위성영상과 수치지형도 간의 불일치를 최소화하기 위해 레이블 정제 과정을 수행하였으며, transformer 기반의 state-of-the-art (SOTA) 시멘틱 세그멘테이션 모델을 도입하여 건물 및 도로 객체에 대한 탐지 성능을 대폭 향상시켰다. 본 연구의 데이터셋 및 탐지 모델을 통해 국토위성 기반의 국토 모니터링 자동화 가능성을 확인하였으며 향후 국토교통부, 한국국토정보공사 등 관련 기관에서 인공지능 기술을 활용한 국토현황정보 구축 및 모니터링 고도화에 기여할 수 있을 것으로 기대된다.
본 연구에서는 차세대중형위성 개발 사업의 1단계에서 개발되고 현재 운용 중에 있는 국토위성 1호기 영상을 사용하였다. 국토위성영상은 0.5 m의 공간해상도를 가진 전정색 영상과 2 m의 공간해상도를 가진 다중 분광 영상(B, G, R, N)으로 구성되어 있으며, 자세한 specification은 Table 1과 같다.
Table 1 . CAS500-1 specifications.
Satellite | Cas500-1 |
---|---|
Wavelength band | Visible: 0.40 μm–0.75 μm NIR: 0.75 μm–1.30 μm |
Resolution | MS: 2.0 m PAN: 0.5 m |
Orbit altitude | 528 km |
Swath width | > 12 km |
Local revisit period | ~ 4.6 days |
NIR: near-Infrared, MS: multi-spectral, PAN: panchromatic..
국토위성 영상은 원시영상(L0F)에서 표준영상 생성시스템(level processor)을 통해 방사보정 및 공간보정이 수행된 L1G로 처리되며, 이후 정사보정 과정을 거쳐 정밀보정영상인 L2G가 제작된다. 본 연구는 건물 및 도로의 정밀한 탐지를 주요 목적으로 하므로, 국토위성 영상 수준 중 L2G 영상을 국토지리정보원으로부터 제공받아 활용하였다. 특히 건물 및 도로의 효과적인 탐지를 위해 팬샤프닝(pansharpening)된 0.5 m 공간해상도의 Red, Blue, Green 밴드 영상을 사용하였다. 영상의 시간적 범위는 2022년 1월부터 2023년 12월로, 공간적 범위는 한반도 전역으로 설정하였으며, 이때 정상 영상에서의 건물 및 도로 탐지 가능성을 효과적으로 평가하기 위해 운량 0%, 촬영각(incidence angle) 5도 미만을 만족하는 영상만을 취득하였다.
마지막으로 한반도의 공간적, 시간적 다양성을 최대한 반영할 수 있도록 2차적으로 영상을 선별하여 데이터셋을 구성하였다(Fig. 1). 우선 공간적 다양성을 확보하기 위해서 연구 지역의 분포를 전략적으로 조정하여 건물 및 도로가 고밀도로 분포하는 도심지역, 비포장 도로가 산재하고 건물 밀도가 낮은 산간지역, 경작지와 비닐하우스가 우세하게 나타나는 농업지역 등 다양한 토지피복 유형이 데이터셋에 포함될 수 있도록 구성했다(Fig. 1a). 또한 시간적 다양성을 위해서는 모델이 계절적 변화에 대해서도 강건한(robust) 성능을 확보할 수 있도록 사계절 영상을 균등한 비율로 포함시켰다(Fig. 1b). 이와 같은 선별 과정을 거쳐 총 22장의 국토위성영상을 연구자료로 활용하였다.
국토정보플랫폼에서 제공하는 사용자친화형 국토위성영상인 표면반사율영상(L3A)은 대기보정이 완료된 자료이지만, L2G 영상은 기하 및 방사보정만이 완료된 영상으로 별도의 대기보정을 필요로 한다. 이에 본 연구에서는 선별한 국토위성영상에 상용 소프트웨어인 environment for visualizing images (ENVI)의 quick atmospheric correction (QUAC) 툴을 사용하여 대기보정을 수행하였다. QUAC는 대기보정을 위한 별도의 매개변수 없이 영상 자체의 스펙트럼 정보만을 활용하여 대기보정을 수행하는 방법으로, 신속하고 간편하게 대기보정을 수행할 수 있다는 장점이 있다.
수치지형도는 항공영상과 현지조사를 기반으로 제작된 국토 전반의 공간정보로서, 우리나라의 지형지물에 대한 가장 신뢰도 높은 공식도면이다. 특히 건물과 도로는 그 수량이 방대하여 데이터셋 구축을 위한 수작업 레이블링(labeling)에 많은 시간과 비용이 소요되는데, 수치지형도는 이들의 정확한 위치와 형상 정보를 포함하고 있어 학습 레이블로 활용하기에 매우 효과적이다. 이러한 이점을 고려하여 본 연구에서는 1:5000 수치지형도를 레이블링에 활용했다. 해당 자료는 국토정보플랫폼(https://map.ngii.go.kr/)에서 획득하였으며, 국토위성영상의 시간적 범위와 가장 적합한 2022년식 자료를 선택하였다. 1:5000 수치지형도는 총 107개의 레이어로 구성되어 있으며, 각 레이어는 지형지물의 특성에 따라 체계적으로 분류되어 있다. 본 연구에서는 이 중 건물 정보를 포함하는 면형 건물 레이어(N3A_B0010000)와 도로 정보를 포함하는 면형 도로 레이어(N3A_A0010000)를 추출하여 사용하였다.
본 연구의 목표는 국토위성영상을 활용하여 우리나라 국토 전반을 모니터링하는 데 최적화된 수치지형도 기반의 건물 및 도로 탐지 데이터셋을 구축하고, 이를 활용해 고성능 탐지 모델을 개발하는 것이다. 이를 위해 체계적인 데이터셋 구축 방안을 제시하고, 다양한 딥러닝 모델을 실험하여 각 모델의 탐지 성능을 비교 분석하였다.
딥러닝 모델, 특히 시멘틱 세그멘테이션 모델의 성공적인 개발을 위해서 가장 중요한 부분은 단시간 내에 양질의 데이터를 최대한 많이 확보하는 데 있다. 본 연구에서 구축하고자 하는 건물 및 도로 현황 정보는 그 양이 매우 방대하여 순수 수작업으로 정교한 레이블링을 수행하는 것은 불가능에 가까우나, 수치지형도와 같은 공간정보데이터베이스를 활용하면 레이블 생성에 소요되는 시간과 비용을 크게 절감할 수 있다. 그러나 수치지형도는 그 자체의 신뢰도를 떠나서 위성영상과의 시간적, 공간적 불일치로 인해 완벽한 정답지로 활용하기에는 여전히 한계가 존재한다. 특히 국토위성영상과 비교하였을 때 데이터 취득 시점이나 관측 방식 등의 차이로 인해 건물 및 도로의 형상 혹은 위치가 정확히 일치하지 않는 경우가 빈번하게 나타났다. 이에 본 연구에서는 효율적인 대규모 데이터셋 구축을 위해 수치지형도를 기반으로 하되, 데이터의 정확도 확보를 위해 다음과 같은 보정 과정을 통해 레이블을 생성하였다.
우선 대기보정이 완료된 국토위성 L2G 자료를 1:5000 도엽 단위로 분할하였다. 그리고 각 도엽 이미지에 최소-최대 정규화(min-max normalization)를 적용하여 픽셀값을 1–255 범위로 조정하였다. 이때, 절대적인 최소/최대값 대신 2퍼센타일 값과 98퍼센타일 값을 사용하였는데, 이는 이상치(outlier)의 영향을 최소화하기 위함이다. 전처리 완료 후에는 해당 도엽과 중첩되는 수치지형도의 건물 및 도로 레이어를 추출하여 레이블링을 수행하였다.
수작업 과정은 기하보정(geometric correction), 생성(addition), 삭제(removal), 형태 수정(featuremodification), 마스킹(masking)으로 구분된다(Table 2). 수치지형도는 우리나라 국토 전반에 대한 정답지로 사용되지만, 국토위성영상과의 공간적 불일치로 인해 건물 및 도로의 위치가 완벽하게 일치하지 않는 경우가 많다. 이를 보정하기 위해 위성영상과 수치지형도의 매칭 포인트를 수동으로 설정하고, 이를 일치시켜 기하보정을 실시하였다. 이는 좌표 정보가 없는 래스터(raster) 픽셀에 실세계 좌표를 할당하는 지오레퍼런싱(georeferencing) 기법을 활용한 것이다. 기하보정 이후에도 미세한 불일치가 발견될 경우에는 수작업으로 피처(feature)를 이동시켜 위치를 수정하였다.
Table 2 . Types of operations for matching digital topographic maps with satellite imagery.
Operation | Use case | Method |
---|---|---|
Geometric correction | Where spatial misalignment exists between satellite imagery and digital map | Georeferencing, manually |
Addition | Where objects are present in satellite imagery but absent in digital map | Manually |
Removal | Where objects are present in digital map but not visible in satellite imagery | |
Feature modification | Where feature shapes in satellite imagery differ from digital map features | |
Masking | Where areas need to be excluded from the dataset |
위성영상 취득 시기와 수치지형도의 제작 시점 차이로 인해 수치지형도 상의 피처와 위성영상 상의 실제 객체의 존재 여부가 일치하지 않는 경우도 있다. 재개발로 인해 이미 철거된 주택 단지가 수치지형도에는 여전히 존재하거나 공사가 완료된 포장도로가 수치지형도에는 반영되지 않은 사례가 이에 해당한다. 이러한 경우에는 국토위성영상을 기준으로 하여 피처를 생성하거나 삭제해 수치지형도를 수정하였다. 또한 숲에 가려 건물이 전혀 보이지 않거나 고속도로의 터널 구간이 위성영상 상에서는 도로가 단절된 것처럼 나타나는 것과 같이 실제로 소멸되지 않았더라도 위성영상에서는 보이지 않아 탐지가 불가능한 경우도 존재했다. 이러한 경우에는 실제로 객체가 존재하더라도 해당 부분을 삭제함으로써 모델이 잘못된 학습 패턴을 학습하지 않도록 하였다. 마지막으로 수치지형도에 그려진 피처가 위성영상 상의 객체와 모양이 다른 경우에는 형상 수정 과정을 통해 올바르게 조정하였다.
국토위성영상은 국가 보안시설(예: 공항, 항만, 발전소 등)에 대해 관련 법령에 따라 모자이크 처리된 형태로 제공된다. 그러나 간혹 일부 모자이크 지역의 주변 또는 내부에 수치지형도 피처가 존재하는 경우가 있는데, 이러한 데이터를 학습에 사용하면 딥러닝 모델의 성능이 저하될 뿐만 아니라 보안 지역 정보의 유출 위험이 발생할 수 있다. 따라서 본 연구에서는 모자이크 지역의 위성영상 및 레이블을 모두 마스킹하여 사용하였다. 또한 국토위성영상에서 간혹 발견되는 비정상적인 반사 현상 또한 지형지물을 가려 객체 탐지에 어려움을 주고, 탐지 정확도를 저하시킬 수 있으므로 마찬가지로 마스킹 처리하였다(Fig. 2). 이렇게 최종 수정을 마친 데이터는 건물 및 도로를 각각 래스터화하여 모델 학습에 활용할 최종 레이블로 가공했다.
딥러닝 기반 시멘틱 세그멘테이션 모델의 성능은 입력 이미지로부터 특징을 추출하는 백본(backbone)과 추출된 특징을 활용하여 세그멘테이션 작업을 수행하는 헤드(head)의 성능 및 구성에 크게 좌우된다. 특히 최근에는 자연어 처리 분야에서 큰 성공을 거둔 transformer 구조가 컴퓨터 비전에도 적용되면서 기존 CNN 기반 모델들의 성능을 상회하는 결과를 보여주고 있어 시멘틱 세그멘테이션 분야의 새로운 패러다임으로 주목받고 있다. 이에 본 연구에서는 뛰어난 특징 추출 능력으로 범용적으로 활용되는 transformer 기반 모델인 Swin transformer와 효율적인 피처 추출 및 탐지 성능으로 시멘틱 세그멘테이션 분야의 SOTA 성능을 보이고 있는Mask2Former를 중심으로 백본 구성을 달리하며 모델 실험을 진행하였다.
UPerNet은 다양한 백본 네크워크과 결합 가능하지만 주로 Swin transformer를 백본으로 하고 UPerNet을 디코더 헤드(decoder head)로 설정한 모델이 널리 사용된다. Swin transformer는 기존 ViT의 한계를 극복하기 위해 제안된 모델로, 계층적(hierarchical) 구조와 Swin 기반의 self-attention을 통해 다양한 패치에서 이미지의 특징을 효과적으로 추출할 수 있다. 기존ViT는 이미지를 고정된 크기의 패치로 분할하여 입력으로 사용하기 때문에 다양한 크기의 대상을 유연하게 처리하기 어렵고, 전체 이미지에 대해 전역적 self-attention을 수행하므로 계산 복잡도가 증가한다는 한계가 있었다. 반면 Swin transformer는 이미지를 패치로 분할한 뒤 이를 계층적으로 병합해 나가면서 피처를 추출하는데, 이때 각 단계의 패치 크기가 달라지면서 여러 형태의 패치에 대한 self-attention 연산을 통해 피처 맵(map)이 생성된다.
또한 self-attention 연산을 local window 내로 제한하면서도 window 간 연결을 허용하는 shifted window 방식을 사용하여 계산 복잡도를 선형으로 낮추고 전역적인 맥락 정보를 고려할 수 있게 하였다(Liu et al., 2021). 이러한 특징으로 Swin transformer는 이미지 내 객체의 크기 변화에 유연하게 대응할 수 있으며, 다양한 컴퓨터 비전 분야에서 범용적인 백본으로 사용되고 있다. UPerNet은 다양한 시각적 개념을 통합적으로 파싱(parsing)하는 모델로 feature pyramid network (FPN)와 PPM구조의 결합으로 구성되어 있다. FPN을 통해서 각기 다른 해상도의 피처 맵들을 통합하고, PPM으로는 다양한 스케일에서의 전역적인 맥락 정보를 포착함으로써 효과적인 특징 표현을 생성한다(Xiao et al., 2018).
최근 다양한 세그멘테이션 작업을 통합적으로 처리할 수 있고, 각 작업별 specialized architecture의 성능을 능가하는 Mask2Former가 등장했다. Mask2Former의 핵심 기술 중 하나는 기존 transformer 디코더의 cross-attention을 개선한 masked-attention 기법으로, 이는 각 query에 대해 예측 영역 내로 attention을 제한함으로써 지역적 특징을 더욱 효과적으로 추출하고 연산 효율성을 향상할 수 있게 한다. 또한 다중 스케일의 feature pyramid를 도입하여 transformer 디코더의 각 레이어에 저해상도에서 고해상도로 구성된 특징 피라미드를 순차적으로 전달함으로써 다양한 스케일의 객체에 대한 효과적인 처리가 가능하다. 이러한 Mask2Former는 단일 아키텍처(architecture)임에도 불구하고 다양한 세그멘테이션 분야에서 SOTA 성능을 달성하며, COCO, ADE20K 등 다양한 도메인의 데이터셋에 대해서도 일관되게 우수한 성능을 입증하였다(Cheng et al., 2022).
본 연구에서는 최종 구축된 데이터셋을 인공지능 알고리즘에 적용하여 건물 및 도로 각각에 대한 단일 클래스 모델을 구축하였다. 딥러닝 모델 학습을 위해 패치의 크기는 1,024 × 1,024로 설정하였으며, 이에 따라 건물 및 도로 각각 8,521장의 이미지 및 레이블이 생성되었다. 생성된 데이터는 객관적인 암맹평가 수행을 위해서 8:1:1의 비율로 분할하여 훈련(6,817장), 검증(852장), 시험(852장)에 할당하였다. 또한 분배 시 22장의 모든 위성영상이 훈련, 검증, 시험 데이터에 균등하게 포함되도록 하여 모델이 특정 영상에 편향되지 않고 다양한 이미지를 고르게 학습할 수 있도록 하였다. 학습 데이터는 평균 0, 표준편차 1이 되도록 표준화(standardization)하였다. 이는 딥러닝 모델의 학습 효율성을 높이고 로컬 미니마(local minima)에 빠질 위험을 줄여 수렴 속도와 안정성을 향상시킨다. 또한, 특징들 간의 스케일 차이로 인한 편향을 감소시킴으로써 모델의 일반화 성능을 높이는 데 기여할 수 있다.
모델 학습 및 평가는 mmsegmentation (https://github.com/openmmlab/mmsegmentation) 프레임워크(framework)를 활용하였다. 사용된 모델의 종류와 하이퍼파라미터(hyperparameter)는 Table 3과 같으며, 이때 Swin-B (base)와 Swin-L (large)의 차이는 모델의 크기와 계산 복잡도를 관할하는 feature dimension 값의 차이에 있다. 또한 Swin transformer 계열 백본의 성능을 평가하기 위해 ResNet101을 백본으로 하는 Mask2Former 모델에 대해서도 추가 실험을 진행하였다(Table 4). 모델 학습은 이터레이션(iteration)을 기준으로 반복 훈련되며 2,000 이터레이션마다 검증 스코어를 산출하도록 설정했다. 모든 학습이 끝난 뒤에는 컴퓨터 비전 분야의 표준 성능지표인 intersection over union (IoU)을 기준으로 가장 성능이 좋은 모델을 선정하여 시험 세트에 대한 평가를 진행하였다.
Table 3 . Model architectures and hyperparameters of UPerNet-based models.
Category | Parameter | UPerNet-Swin-B | UPerNet-Swin-L |
---|---|---|---|
Model architecture | Decoder | UPerNet Head | |
Backbone | Swin Transformer | ||
Window size | 7 | ||
Crop size | (512, 512) | ||
Feature dimension | 128 | 192 | |
Training hyperparameters | Optimizer | AdamW | |
Learning rate | 6e-5 | ||
Weight decay | 0.01 | ||
Batch size | 2 | ||
Max iteration | 160,000 |
Table 4 . Model architectures and hyperparameters of Mask2Former-based models.
Category | Parameter | Mask2Former-ResNet101 | Mask2Former-Swin-B | Mask2Former-Swin-L |
---|---|---|---|---|
Model architecture | Decoder | Mask2Former Head | ||
Backbone | ResNet101 | Swin-Ba) | Swin-Lb) | |
Pixel decoder | MS-Deform Attention | |||
Crop size | (512, 512) | |||
Window size | - | 12 | 12 | |
Training hyperparameters | Optimizer | AdamW | ||
Learning rate | 1e-4 | |||
Weight decay | 0.005 | |||
Batch size | 2 | |||
Max iteration | 160,000 |
a) Swin Transformer with feature dimension=128, b) Swin Transformer with feature dimension=192..
모델의 예측 결과는 이진분류로 출력되며, 건물 및 도로로 식별된 픽셀은 1, 그 외 영역으로 식별된 픽셀은 0으로 표현된다. 탐지 모델 예측 결과의 정량적 분석을 위해 예측 이미지(predicted)와 레이블(ground truth)을 비교하여 혼동행렬(confusionmatrix)을 생성하였다(Fig. 6). 혼동행렬은 True Positive (TP: 실제 건물/도로를 정확히 예측), True Negative (TN: 실제 건물/도로가 아닌 부분을 정확히 예측), False Positive (FP: 실제 건물/도로가 아닌 부분을 건물/도로로 잘못 예측), FalseNegative (FN: 실제 건물/도로를 건물/도로가 아닌 부분으로 잘못 예측)로 구성되며, 이를 기반으로 정확도(accuracy), 정밀도(precision), 재현율(recall), F1-score, IoU의 평가지표를 계산하여 모델의 성능을 종합적으로 분석하였다(식 2–6).
정확도는 영상 전체 픽셀 중 모델이 정확히 예측한 픽셀의 비율로 모델의 성능을 직관적으로 나타내지만 클래스 불균형이 있는 경우에는 신뢰도가 떨어질 수 있는 지표이다. 정밀도는 건물/도로로 예측한 픽셀 중 실제 건물/도로인 픽셀의 비율로 과탐지 수준을 평가하는 데 사용되고, 재현율은 실제 건물/도로 픽셀 중 정확히 예측된 픽셀의 비율로 미탐지 수준을 평가하는 지표로 사용된다. F1-score는 이러한 정밀도와 재현율의 조화평균으로, 과대/과소 추정 간의 균형을 평가하는 종합적인 지표로 사용된다. 마지막으로 IoU는 실제값과 예측값 간의 교집합 영역을 합집합 영역으로 나눈 값으로, 세그멘테이션 분야에서 가장 보편적으로 사용되는 중요한 평가 지표라 할 수 있다.
Table 5는 각 건물 탐지 모델의 정량적 평가 결과를 나타내며, Fig. 7은 모델별 예측 결과를 나타낸다. 실험 결과, Swin transformer를 백본 네트워크로 사용한 모델들이 건물 IoU 0.74 이상, 정밀도 및 재현율 0.84 이상으로 우수한 성능을 나타냈다. ResNet101 백본을 사용한 Mask2Former 모델도 건물 IoU 71.83, 정밀도 및 재현율 각각 82.95, 84.27로 독립적으로는 어느 정도 유의미한 성능을 보였으나 Swin transformer 백본 모델에 비해서는 상대적으로 낮게 나타났다. 전 지표 상 가장 높은 성능을 보인 모델은 Swin-L 백본의Mask2Former로, 건물 IoU가 77.93으로 높게 나타났다. 또한 정밀도와 재현율도 각각 88.33, 86.88로 계산되었는데, 이는 과탐지 및 오탐지의 어느 한 쪽에 크게 치우치지 않고 균형 잡힌 성능을 가졌음을 보여준다.
Table 5 . Test performance of different models for building segmentation.
Base model | Backbone | Accuracy | F1-score | Precision | Recall | IoU |
---|---|---|---|---|---|---|
Mask2Former | ResNet101 | 97.1 | 83.6 | 82.95 | 84.27 | 71.83 |
Swin-B | 97.77 | 87.19 | 87.96 | 86.44 | 77.29 | |
Swin-L | 97.84 | 87.6 | 88.33 | 86.88 | 77.93 | |
UPerNet | Swin-B | 97.71 | 86.76 | 88.25 | 85.31 | 76.61 |
Swin-L | 97.48 | 85.49 | 86.56 | 84.44 | 74.65 |
정성적 평가 결과, 우선 Figs. 7(a, b)와 같이 건물이 밀집된 지역에서 모든 모델의 예측 결과가 실제 건물 레이블과 대부분 일치하는 모습을 보였다. 특히 반듯한 사각형 형태가 아닌 건물 객체에 대해서도 그 형상을 올바르게 잘 예측하였다. Fig. 7(c)는 겨울철 산지 지역의 영상으로, 건물의 지붕이나 옥상, 도로에 눈이 쌓여 전반적으로 하얗게 보이기 때문에 정교한 탐지가 쉽지 않다. 그러나 본 연구의 모델들은 이러한 겨울 영상에서도 건물을 대부분 잘 추출하는 모습을 보였다.
일반적인 농업용 비닐하우스는 건축법 시행령과 대법원 판례에 따라 건물로 판단하지 않으며, 이에 본 연구에서도 비닐하우스를 제외한 건물만을 탐지하도록 데이터셋을 구성했다. 그 결과, 대부분의 모델에서 비닐하우스의 광학적 특성을 학습하여 오탐지하지 않은 것으로 나타났다. 그러나Mask2Former-ResNet101 모델의 경우 간혹 비닐하우스를 건물로 오탐지하는 모습을 보이기도 했다(Fig. 7d). 또한 Fig. 7(e)와 같이 도심지에서는 고층건물로 인해 그림자가 지는 경우가 많이 발생하는데, 본 연구의 모델들은 그림자로 가려져 일부가 어두워진 건물도 잘 탐지하는 모습을 보였다.
다양한 규모와 형태를 가지며 연속적인 구조를 띠는 특성으로 인해 탐지가 상대적으로 까다로움에도 불구하고 모든 모델의 도로 IoU가 0.7 이상, 가장 좋은Mask2Former-Swin-L 모델의 도로 IoU는 74.85로 충분히 좋은 성능을 보였다. 또한 백본 성능 비교 결과로는 건물 탐지와 마찬가지로 Swin transformer 백본이 ResNet 백본보다 현저히 높은 탐지 성능을 보였다(Table 6). 본 연구에서 정의된 도로는 일반도로, 고속도로, 이면도로, 농로, 기타 비포장도로 등으로, 수치지형도 상에 등록되어 있는 모든 도로를 대상으로 하여 탐지를 수행하였다. 그 결과 대부분의 모델이 도로의 종류에 큰 관계 없이 전반적으로 레이블과 일치하는 양상을 보였으며 특히 Mask2Former-Swin-L 모델은 도로가 도중에 끊기게 나타나는 사례가 가장 적게 나타남으로써 도로의 연속성이 가장 잘 학습된 것으로 보였다(Fig. 8). 도로의 종류에 따라 성능을 세부적으로 분석한 결과 우선 Figs. 8(a, d)의 큰 도로와 같이 넓고 명확한 도로에서는 모든 모델의 탐지 성능이 매우 우수하게 나타났다. 또한 Fig. 8(b)와 같은 복잡한 도심지 도로망에서도 전반적인 네트워크 구조를 높은 정확도로 탐지하는 모습을 보였다.
Table 6 . Test performance of different models for road segmentation.
Base model | Backbone | Accuracy | F1-score | Precision | Recall | IoU |
---|---|---|---|---|---|---|
Mask2Former | Resnet-101 | 96.96 | 82.99 | 85.25 | 80.85 | 70.93 |
Swin-B | 97.34 | 85.3 | 86.78 | 83.87 | 74.36 | |
Swin-L | 97.4 | 85.62 | 87.09 | 84.2 | 74.85 | |
UPerNet | Swin-B | 97.25 | 84.55 | 87.37 | 81.91 | 73.24 |
Swin-L | 96.93 | 82.47 | 86.64 | 78.69 | 70.17 |
이외에도 복잡하게 얽혀 있는 농지의 도로(Fig. 8c)나 수로와 유사하여 오탐지하기 쉬운 얇은 농로(Fig. 8d)의 조건에서도 본 모델들은 도로를 성공적으로 탐지하였다. 그러나 길(도로)과 주변의 경계가 너무 모호하여 인식하기 힘든 경우, 농지의 산길이나 도심지의 골목길과 같이 지나치게 좁고 얇은 도로의 경우에는 세부적인 탐지 성능이 다소 떨어지게 나타났다. 산지의 경우 구불구불한 협로가 많아 탐지가 어려운데, 특히 눈이 쌓인 겨울철(Fig. 8e)에는 이러한 어려움이 더욱 가중된다. 그럼에도 불구하고 본 모델들은 겨울 영상에 대해서도 전반적인 도로 네트워크를 잘 탐지하는 모습을 보였다.
본 연구에서는 국토위성영상을 활용한 정확한 건물 및 도로 탐지 모델 개발을 위해 수치지형도 기반의 데이터셋을 국토위성영상에 최적화하여 레이블을 수정하였다. 그리고 최적화된 레이블의 유의미성을 검증하기 위해 순수 수치지형도 레이블을 사용한 데이터셋과 모델 성능의 비교 실험을 수행하였다. 실험에는 가장 우수한 성능을 보인 Swin-L 백본의 Mask2Former 모델을 사용하였으며, 하이퍼파 라미터와 모델 구성을 동일하게 적용하여 데이터셋의 차이에 따른 영향을 분석하였다. 또한, 이미지 및 학습 데이터셋 구성의 영향을 배제하고 레이블의 차이에 따른 결과만을 평가하기 위해 학습 이미지는 동일하게 유지하고 레이블만을 수정하였다.
본 연구에서 사용된 데이터셋과 순수 수치지형도 데이터셋의 건물과 도로 레이블 및 탐지 결과는 Fig. 9와 10에 제시하였다. 각 Fig에서 (a), (e)는 제안된 데이터셋의 레이블, (b), (f)는 순수 수치지형도 데이터셋의 레이블, (c), (g)는 제안된 데이터셋으로 학습한 모델의 시험 결과, (d), (h)는 순수 수치지형도 데이터셋으로 학습한 모델의 시험 결과이다. Fig. 9와 10의 건물 및 도로 탐지의 각 케이스별 결과에 대한 single IoU는 Table 7에서 확인할 수 있다.
Table 7 . IoU evaluation of optimized and original labels for building and road detection.
Target | Case | Optimized | Original | δ IoUa) |
---|---|---|---|---|
Building IoU | #1 | 75.97 | 21.66 | 54.30 |
#2 | 72.52 | 42.76 | 30.76 | |
Road IoU | #1 | 83.10 | 60.10 | 23.00 |
#2 | 75.38 | 38.85 | 36.52 |
a) δ IoU = Optimized IoU - Original IoU..
우선 건물 탐지에서 가장 두드러지게 나타난 문제점은 일부 지역에서 나타난 수치지형도와 위성영상 사이의 기하적 불일치였다. Case #1은 2023년 9월에 촬영된 경기도 안양시 영상으로, 수치지형도와 현저한 기하적 불일치가 존재했다. 제안된 데이터셋을 사용한 Fig. 9(c)에서는 예측 결과가 실제 건물의 위치 및 형상의 정밀한 정합성을 보이며 해당 IoU가 75.97로 높게 나타난 반면, Fig. 9(d)에서는 예측 결과가 실제 건물의 위치와 상당한 오차를 나타내고 밀집 구역의 개별 건물 형상을 정확히 탐지하지 못하였으며 그 IoU 또한 21.66으로 낮게 나타났다. 또한 case #2는 2022년 2월 촬영된 경상북도 영주시의 영상인데, 왼쪽 상단은 대형 비닐하우스 단지로서 Fig. 9(b)의 수치지형도에서도 건물로 표현되지 않은 곳으로 두 모델 모두 건물로 탐지하지 않는 것이 정상이다. 그러나 Fig. 9(g)에서는 해당 지역을 정상적으로 탐지하지 않은 반면, Fig. 9(e)에서는 비닐하우스의 일부를 건물로 오탐지 하는 모습을 보였다.
도로 탐지의 경우, 도로 네트워크 탐지 성능과 보이지 않는 도로를 예측하는 부분에서 문제가 발생했다. Case #1과 같은 터널은 Fig. 10(b)와 같이 위성영상에서 도로가 보이지 않더라도 기존 수치지형도에는 모두 도로로 표시되어 있다. 본 연구에서는 최적화 데이터셋 구축 시 이처럼 보이지 않는 부분의 도로는 삭제하였는데, 산으로 뒤덮인 터널이 도로로 레이블링 될 경우 산지에 대한 모델의 일관된 학습에 어려움을 줄 것으로 판단했기 때문이다. 실제로 순수 수치지형도를 사용한 Fig. 10(d)에서는 해당 부분의 일부를 도로로 탐지하였지만, 내부 도로 형태를 제대로 표현하지 못하고 도중에 뭉툭하게 끊어지는 결과를 보였다.
또한 건물만큼 그 강도와 빈도가 심하지는 않으나 일부 영상에서 도로의 기하적 불일치도 여전히 존재했다(Fig. 10f). 이로 인해 case #2와 같이 실제 도로와 모델이 예측한 도로가 약간 어긋나는 경우가 발생했으며, 도로 네트워크 형상을 탐지하는 성능도 Fig. 10(g)보다 Fig. 10(h)에서 더욱 떨어지게 나타났다. 또한 그 IoU도 각각 75.38, 38.85로 현저한 차이를 보였다. 이러한 결과를 종합해 볼 때, 본 연구에서 제안하는 건물 및 도로 최적화 데이터셋이 단순 수치지형도만을 사용하는 것보다 더욱 정확한 레이블을 제공함과 동시에 일관성 또한 유지함으로써 모델의 뛰어난 정성적 및 정량적 성능을 보다 보장할 수 있는 것으로 판단된다.
본 연구에서는 국토위성영상의 건물 및 도로 자동 탐지를 위한 고성능 딥러닝 모델 개발을 목표로, 수치지형도의 건물 및 도로 레이어를 기반으로 한 최적화된 학습 데이터셋을 구축하였다. 국토위성영상과의 정합성 향상을 위해 수치지형도를 수정하고 모델 학습에 방해되는 요소를 마스킹 처리하였으며, Swin transformer를 백본으로 하는 UPerNet과 Mask2Former 모델을 활용하여 건물 및 도로 탐지를 수행하였다. 실험 결과, 모든 모델이 우수한 탐지 성능을 보였으며 특히 Swin-L 백본 기반의 Mask2Former 모델이 건물 IoU 77.93, 도로 IoU 74.85로 가장 높은 성능을 달성하였다. 이는 Swin-L의 효과적인 특징 추출 능력과 Mask2Former의 정교한 세그멘테이션 성능이 결합된 결과로 사료된다.
또한 본 연구에서 구축한 데이터셋의 효용성을 평가하기 위해 순 수 수치지형도 레이블로 구성된 비교평가용 데이터셋을 구축하여 학습 결과를 비교 분석하였다. 그 결과, 본 연구에서 구축한 데이터셋이 국토위성영상과의 시간적·기하적 불일치가 존재하는 순수 수치지형도 레이블 데이터셋 대비 우수한 성능을 보였다. 이는 본 연구에서 구축한 데이터셋이 국토위성영상 기반의 건물 및 도로 탐지에 효과적임을 입증할 뿐만 아니라, 향후 수치지형도 갱신을 위한 참고자료로도 활용될 수 있음을 시사한다.
향후 연구에서는 다종 위성영상의 통합적 활용, 데이터 고도화, 하이퍼파라미터 최적화 등을 통해 모델의 성능을 개선하고자 한다. 또한 본 연구에서 구축된 양질의 데이터셋과 학습된 모델을 기반으로 변화탐지, 불법 건축물 모니터링 등 실용적 활용 방안을 모색할 예정이다. 본 연구의 활용산출물은 국토위성영상 분석 과정의 인력과 시간을 최소화하고, 향후 국토 공간정보서비스의 고도화 및 관련 정책 수립을 위한 실증적 기초자료로 사용될 수 있을 것으로 기대된다.
이 논문은 국토지리정보원 2024년 연구용역 “국토위성 기반 국토현 황정보 추출 기술 개발” 사업의 지원을 받았습니다.
No potential conflict of interest relevant to this article was reported.
Table 1 . CAS500-1 specifications.
Satellite | Cas500-1 |
---|---|
Wavelength band | Visible: 0.40 μm–0.75 μm NIR: 0.75 μm–1.30 μm |
Resolution | MS: 2.0 m PAN: 0.5 m |
Orbit altitude | 528 km |
Swath width | > 12 km |
Local revisit period | ~ 4.6 days |
NIR: near-Infrared, MS: multi-spectral, PAN: panchromatic..
Table 2 . Types of operations for matching digital topographic maps with satellite imagery.
Operation | Use case | Method |
---|---|---|
Geometric correction | Where spatial misalignment exists between satellite imagery and digital map | Georeferencing, manually |
Addition | Where objects are present in satellite imagery but absent in digital map | Manually |
Removal | Where objects are present in digital map but not visible in satellite imagery | |
Feature modification | Where feature shapes in satellite imagery differ from digital map features | |
Masking | Where areas need to be excluded from the dataset |
Table 3 . Model architectures and hyperparameters of UPerNet-based models.
Category | Parameter | UPerNet-Swin-B | UPerNet-Swin-L |
---|---|---|---|
Model architecture | Decoder | UPerNet Head | |
Backbone | Swin Transformer | ||
Window size | 7 | ||
Crop size | (512, 512) | ||
Feature dimension | 128 | 192 | |
Training hyperparameters | Optimizer | AdamW | |
Learning rate | 6e-5 | ||
Weight decay | 0.01 | ||
Batch size | 2 | ||
Max iteration | 160,000 |
Table 4 . Model architectures and hyperparameters of Mask2Former-based models.
Category | Parameter | Mask2Former-ResNet101 | Mask2Former-Swin-B | Mask2Former-Swin-L |
---|---|---|---|---|
Model architecture | Decoder | Mask2Former Head | ||
Backbone | ResNet101 | Swin-Ba) | Swin-Lb) | |
Pixel decoder | MS-Deform Attention | |||
Crop size | (512, 512) | |||
Window size | - | 12 | 12 | |
Training hyperparameters | Optimizer | AdamW | ||
Learning rate | 1e-4 | |||
Weight decay | 0.005 | |||
Batch size | 2 | |||
Max iteration | 160,000 |
a) Swin Transformer with feature dimension=128, b) Swin Transformer with feature dimension=192..
Table 5 . Test performance of different models for building segmentation.
Base model | Backbone | Accuracy | F1-score | Precision | Recall | IoU |
---|---|---|---|---|---|---|
Mask2Former | ResNet101 | 97.1 | 83.6 | 82.95 | 84.27 | 71.83 |
Swin-B | 97.77 | 87.19 | 87.96 | 86.44 | 77.29 | |
Swin-L | 97.84 | 87.6 | 88.33 | 86.88 | 77.93 | |
UPerNet | Swin-B | 97.71 | 86.76 | 88.25 | 85.31 | 76.61 |
Swin-L | 97.48 | 85.49 | 86.56 | 84.44 | 74.65 |
Table 6 . Test performance of different models for road segmentation.
Base model | Backbone | Accuracy | F1-score | Precision | Recall | IoU |
---|---|---|---|---|---|---|
Mask2Former | Resnet-101 | 96.96 | 82.99 | 85.25 | 80.85 | 70.93 |
Swin-B | 97.34 | 85.3 | 86.78 | 83.87 | 74.36 | |
Swin-L | 97.4 | 85.62 | 87.09 | 84.2 | 74.85 | |
UPerNet | Swin-B | 97.25 | 84.55 | 87.37 | 81.91 | 73.24 |
Swin-L | 96.93 | 82.47 | 86.64 | 78.69 | 70.17 |
Table 7 . IoU evaluation of optimized and original labels for building and road detection.
Target | Case | Optimized | Original | δ IoUa) |
---|---|---|---|---|
Building IoU | #1 | 75.97 | 21.66 | 54.30 |
#2 | 72.52 | 42.76 | 30.76 | |
Road IoU | #1 | 83.10 | 60.10 | 23.00 |
#2 | 75.38 | 38.85 | 36.52 |
a) δ IoU = Optimized IoU - Original IoU..
Jingi Ju, Jiseung Ahn, Giwoong Lee, Jeongyeol Choe, Jaeyoung Chang, Kwang-Jae Lee
Korean J. Remote Sens. 2024; 40(6): 1421-1433Jae Young Chang, Kwan-Young Oh, Sun-Gu Lee
Korean J. Remote Sens. 2024; 40(6): 1397-1408Soyeon Choi, Youngmin Seo, Hyo Ju Park, Heangha Yu, Yangwon Lee
Korean J. Remote Sens. 2024; 40(6): 1177-1193