Research Article

Split Viewer

Korean J. Remote Sens. 2024; 40(6): 1397-1408

Published online: December 31, 2024

https://doi.org/10.7780/kjrs.2024.40.6.3.2

© Korean Society of Remote Sensing

중복 딥러닝 모델을 이용한 KOMPSAT 광학영상에서의 농촌시설 분할에 대한 연구

장재영1*, 오관영2, 이선구1

1한국항공우주연구원 위성활용부 책임연구원
2한국항공우주연구원 위성활용부 선임연구원

Received: September 2, 2024; Revised: September 24, 2024; Accepted: September 24, 2024

A Study on Segmentation of Rural Facilities through Redundant Deep Learning Models Using KOMPSAT Optical Images

Jae Young Chang1* , Kwan-Young Oh2, Sun-Gu Lee1

1Principal Researcher, Satellite Application Division, Korea Aerospace Research Institute, Daejeon, Republic of Korea
2Senior Researcher, Satellite Application Division, Korea Aerospace Research Institute, Daejeon, Republic of Korea

Correspondence to : Jae Young Chang
E-mail: jychang@kari.re.kr

Received: September 2, 2024; Revised: September 24, 2024; Accepted: September 24, 2024

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Rural facilities such as factories and barns near residential areas cause pollution and civil complaints. They are managed through legal registration, but there are still conflicts and inconsistencies. In Korea, the Rural Spatial Restructuring Act will come into effect in March this year. It will promote long-term rural area construction plans and support new public businesses. In this situation, it is essential to have a means to accurately and efficiently identify the status and changes in rural facilities. In this study, we constructed a dataset containing the Korea Multi-purpose Satellite (KOMPSAT) optical images and associated rural facility masks for four cities in South Korea in 2019 and 2020. A deep learning-based segmentation method was then applied to the dataset. Satellite images only show roofs, making it inherently difficult to completely distinguish between building types. Non-target buildings often look almost identical to the target. The higher the complexity of the deep neural network architecture, the more likely these inconsistencies are to cause overfitting problems. For better universal performance, we constructed redundant models from different combinations of data. Redundant models produce different inference results for the same validation sample. Averaging this gives more reliable results. Finally, we also performed a performance comparison between the original model and the new model optimized within the trust region guaranteed by the redundant models.

Keywords Satellite optical imagery, KOMPSAT, Deep learning, Rural area, Overfitting, Semantic segmentation

도시적 토지 이용을 목적으로 한 농산지 전용 및 개발허가가 증가하며 주거지 인근에 악취나 소음이 발생하는 시설이 들어서고 있으며, 2019년도에는 주거지의 500 m 이내에 있는 공장(82%), 축사(77%), 태양광시설(62%)이 과반을 차지하였다. 이러한 토지이용 및 주거문제 이외에도 농촌 지역의 인구감소 및 고령화 대응, 농촌 지역의 생활서비스 개선, 농촌융복합 산업 활성화 등 종합적인 관점에서의 대응을 위해 “농촌공간 재구조화 및 재생지원에 관한 법률”이 제정되고 2024년 3월 29일에 시행되었다. 농촌공간 재구조화는 농촌공간을 주거, 축산, 공장, 융복합 산업 등 7개 기능별로 구획 및 집적화하여 정주여건 개선 및 산업육성 기반 강화를 도모하는 것이다. 이는 기존에 주거 지역과 혼재하고 있던 공장, 축사, 발전시설 등의 재배치를 의미하는데, 농촌이 전체 국토면적의 89%를 차지하는 만큼 광범위하게 전개되어야 하는 농촌공간 재구조화에 있어서 농촌 환경의 현 상태를 효율적으로 모니터링하고 나아가 체계적으로 진척 상황을 파악할 수 있는 수단이 반드시 필요하다.

한편 지구관측 인공위성을 이용하면 임의 지역의 영상을 원하는 시점에 얻을 수 있다. 우리나라가 보유하는 광학 지구관측 위성 중 아리랑 3호, 아리랑 3A호, 차세대중형위성 1호는 픽셀(pixel)당 1 m 미만의 지상해상도를 갖는 센서를 통해 농촌 시설을 육안으로 식별할 수 있을 정도의 고해상도 영상을 취득할 수 있다. 또한 최근 급속히 발전하는 인공지능 기술을 이용한 영상 분할 기법을 접목하면 농촌 시설 탐지 및 분류 작업을 자동화할 수 있다. 즉 국토 전체의 농촌 상황에 대한 1차적인 모니터링을 사람의 개입을 최소화 한 채 주기적 수행할 수 있는 체계를 구축할 수 있게 된다.

최근 인공지능 기반 영상분석 기법을 원격탐사 분야에 적용하는 연구가 활발히 진행되고 있으며 U-Net 모델 기반 영상분할 기법을 이용한 수체 탐지, 토지 피복 분류, 태양광 패널 탐지 등 다양한 연구에 있어서 우수한 성능을 입증한 바 있다(Feng et al., 2019; Ulmas and Liiv, 2020). 특히 토지 피복이나 도시 내 기능지역 분할 연구에 대해서도 산업단지와 같은 특정 객체를 효과적으로 구분한 선행 연구들이 존재한다(Zhang et al., 2018; Pan et al., 2020). 다만 산업단지 등은 용도에 따라 외관상 큰 차이를 보이지만 본 연구의 탐지 대상인 축사와 공장은 일반 건물과 유사한 형상을 띄는 경우가 많다는 점이 기존 연구와 대비된다.

또한 인공지능 기술의 원격탐사 분야로의 적용에 발맞추어 고해상도 위성영상 혹은 항공영상 기반의 다양한 데이터셋이 공개되었다. 매사추세츠 건물 데이터셋은 보스턴 지역에서 촬영된 지상해상도 1미터의 영상에 대한 다양한 건물 위치 정보를 포함하고 있다(Mnih and Hinton, 2010). 국제 사진측량 및 원격탐사학회(International Society of Photogrammetry and Remote Sensing, ISPRS)가 배포한 포츠담-바이힌겐 데이터셋은 픽셀당 5에서 9 cm의 고해상도 항공영상과 수치표면모델 및 토지피복 정보를 함께 제공하며 이를 이용한 연구가 지속적으로 이루어지고 있다(Wang et al., 2021; Li et al., 2023). 딥글로브(DeepGlobe) 데이터셋은 딥글로브사가 보유한 위성에서 촬영된 지상해상도 50 cm 급의 위성영상을 바탕으로 도로, 건물, 토지피복 정보를 동시에 제공한다(Demir et al., 2018). 인리아(Inria) 항공이미지 라벨링 데이터셋은 미국과 유럽 도시에 대해 810 km2에 달하는 30 cm급 항공 영상으로 구성되며 건물 정보를 포함한다(Maggiori et al., 2017). 다양한 데이터셋이 꾸준히 공개되고 있는 한편으로 그 품질은 다양하고 다수의 오류를 내포하고 있는 것이 사실이다. 그러므로 완전무결한 정답지로서의 데이터셋이 아니라 내재된 오류를 감안한 알고리즘이나 성능개선이 요구되며 본 연구에서는 다중모델의 집단지성을 이용해 혼란스러운 영역 판별 및 성능개선을 도모하였다.

국내에서 진행된 유사 연구로는 고해상도 국가위성 위성영상에 대한 U-Net 기반 영상분할 적용 연구가 주를 이루며 AI Hub에서 제공되는 토지피복 위성자료를 이용한 토지피복 분류와 샘플 확장 효과에 대한 연구(Baek et al., 2022), KOMPSAT 3, 3A, 5호 영상을 이용한 자연림과 인공림의 분류(Lee et al., 2018), KOMPSAT 3, 3A호 영상을 이용한 도로영역 탐지에 대한 연구(Chae et al., 2022), KOMPSAT 3, 3A호 영상을 이용한 대기오염원 분할 연구(Park et al., 2023) 등이 있다. 이들 연구에서 공통적으로 나타난 결과는 고해상도 위성영상의 영상분할에 있어서 모델 복잡도와 정확도는 반드시 비례하지 않으며 샘플 확장 기법을 통해 부족한 정답지를 확충하여 보다 높은 성능을 얻을 수 있다는 점이다. 특히 KOMPSAT 3A호 영상을 이용한 서울시 양재 지역의 시가화 영상 분류에 대한 연구(Youn and Jeong, 2020)에서는 인공신경망 대비 Support Vector Machine (SVM)의 정확도가 높게 나타난 점에서 모델 복잡도가 반드시 높은 성능을 보장하지 않음을 시사한다. 또한 KOMPSAT 3호 영상에서의 토지피복에 대하여 여러 딥러닝 모델의 성능을 비교 평가한 연구(Lee and Lee, 2020)에서는 모델마다 정확도가 높은 클래스가 달리 나타나 상이한 모델의 추론 결과를 융합하는 방법에 대한 가능성을 제시하였다.

본 연구에서는 딥러닝 기반 영상분할 기법을 이용하여 농촌재구조화의 주요 관심시설인 축사, 공장, 태양광 패널의 3가지 시설에 대한 영상 분할을 시도하였다. 이는 기존 연구나 데이터셋에서 다뤄지는 건물이나 토지피복 분류와는 달리, 건물 클래스 내에서도 특정 시설 만을 분류해야 하며 기타 건물은 배경으로 간주되어야 한다. 그러나 위성영상에서는 상공에서 내려다본 형상만 보여 탐지 대상과 유사한 일반 건물이나 반대로 탐지 대상임에도 일반 건물처럼 보이는 경우가 흔히 존재한다. 이러한 학습자료에 내재하는 모순은 높은 복잡도의 분류기에서 과적합을 유발하기 쉽고 결과적으로 신규 영상에서 기대 이하의 추론 성능을 나타낼 수 있다. 이에 본 연구에서는 시범 지역에 대한 학습자료를 구축하고 이에 딥러닝 모델을 적용하여 농촌시설을 분류하고, 나아가 중복 모델 구축에 의한 과적합 완화기법을 적용하여 보편적인 성능 개선을 도모하였다.

2.1. 연구 지역

본 연구의 연구 지역은 2022년에 진행된 농촌 위해 시설 정비사업의 농촌협약 대상지로 선정된 거창군, 나주시, 서산시, 안성시로 설정하였으며 해당지역에는 관심 시설인 공장, 축사, 태양광 패널이 넓게 분포하고 있어서 학습자료 구축 및 알고리즘의 성능 검증에 적합한 지역이다. 이들의 지상에서 보여지는 모습의 사례를 Fig. 1에 나타내었으며 Table 1에는 데이터셋에 포함된 각 지역별 시설 수를 나타내었다. 이를 통해 전반적으로 축사의 수가 많고 태양광 패널의 수가 적으며, 안성 지역에 공장이 밀집되어 있고 나주 지역에 태양광 시설이 많음을 알 수 있다.

Fig. 1. Actual appearance of rural facilities. (a) Pig barn. (b) Fertilizer plant. (c) Solar panels.

Table 1 The number of facilities in the dataset for this study

Rural facilityArea
GeochangNajuSeosanAnsungTotal
Barn1,9862,8352,5082,88110,210
Factory1655744362,0213,196
Solar panel202314128155799


2.2. 연구 자료

본 연구에서는 한국항공우주연구원(KoreaAerospaceResearchInstitute)에서 년 단위로 제작하여 정부부처를 대상으로 배포하는 한반도 모자이크 영상 자료를 이용하였다. 이는 한반도 전 지역에 대해 아리랑광학위성 영상을 수집하여 정사 기하보정 및 색상 보정을 적용한 제품으로 픽셀당 1 m 해상도의 RGB 영상으로 구성된다. 본 연구에서는 시계열적인 변화와 환경적인 요인에 의한 화질 변화를 학습자료에 반영하기 위하여 2019년도와 2020년도 두 해의 모자이크 영상을 사용하였다. 단, 2020년도 모자이크 영상은 예외적으로 픽셀당 70 cm의 해상도를 갖기 때문에 2019년도 모자이크 영상도 70 cm 해상도로 통일하여 사용하였다. 이로서 대상 객체의 픽셀 크기에 대한 일관성을 확보하였고 고주파성분이 상대적으로 빈약한 2019년도 영상자료는 저주파 필터링에 의한 샘플 증강 효과를 기대할 수 있다. 하나의 씬(scene) 영상은 약 17,000 × 20,000 픽셀 크기이며 연구 지역을 모두 포함하기 위해서는 Fig. 2와 같이 한 해 당 총 23씬의 모자이크 영상이 필요하다. 아울러 한국농촌경제연구원(Korea Rural Economic Institute)으로부터 제공받은 농촌시설의 주소 정보를 이용하여 대략적인 위치를 파악하고, 상응하는 모자이크 영상을 겹쳐놓은 상태에서 수작업으로 시설 경계를 가공하여 클래스 정보 태그(tag)를 갖는 폴리곤(polygon) 형태의 벡터(vector) 자료로 저장하였다.

Fig. 2. The mosaic images including the target cities.

Fig. 3에 본 연구에서 수행한 작업의 흐름을 나타내었으며 이는 원시자료 수집, 학습자료 가공, 심층신경망 학습으로 이어지는 일반적인 처리 과정에 더하여 보편성능 개선을 위한 중복 심층신경망 학습과 개선모델 학습 과정으로 구성된다. AdaBoost 분류기에 대한 과적합 완화를 위하여 혼란스러운 학습 샘플의 제거 방법에 대한 연구가 있었으며 이는 동일한 학습자료에 대해 서로 다른 조합으로 중복 모델을 학습하고 이들의 추론 결과에 일관성이 없는 샘플을 혼란스러운 샘플(confusing sample)로 지정하여 학습 과정에서 제외하는 방법이다(Vezhnevets and Barinova, 2007). 본 연구에서는 이를 딥러닝 기반 영상분할 모델에 변형하여 적용하였으며 중복 모델에 의해 도출된 혼란스러운 픽셀 영역에 휴먼에러(human error)로 인해 일관성이 떨어지는 경계 영역과 시각적으로 분류가 어려운 영역이 포함되는 것을 확인하였다. 마지막으로 일반적인 절차로 학습된 단일 모델과 비교하여 중복 모델의 융합 결과와 혼란스러운 픽셀을 제외하여 학습한 개선 모델의 추론 결과를 비교하였다.

Fig. 3. Data processing flow of this study.

3.1. 원시자료 수집 및 학습자료의 가공

원활한 라벨링 작업을 위하여 수집된 관심 지역의 모자이크 영상을 4,096 × 4,096 픽셀 크기의 겹치지 않는 타일 영상으로 분할하였다. 농촌시설이 전혀 포함되지 않은 타일을 연구 자료에서 제외하면 최종적으로 270장의 타일이 생성된다. Fig. 4에 각 도시 별 타일영상의 분포를 나타내었으며 Fig. 5에는 타일 영상과 수작업으로 작성된 라벨 정보의 사례를 나타내었다.

Fig. 4. Splitting mosaic scene images into 270 tile images.

Fig. 5. An example of annotation. (a) Tile image. (b) Labels (green: barns, purple: factories, and cyan: solar panels).

심층신경망 입력으로 사용되는 패치(patch) 영상의 크기는 480 × 480 픽셀로 설정하였으며 타일영상과 라벨정보로부터 샘플 증강 과정을 거쳐 생성하였다. 패치 영상은 하나의 시설 위치로부터 랜덤한 이동, 회전, 축적(scaling) 변화를 부여하여 3장씩 추출하였다. 어떤 패치 영상에는 하나 이상의 시설이 포함될 수 있으므로 학습자료에서의 각 시설의 노출 빈도를 균등하게 맞추기 위해서 추출 패치 수를 조절하였다. Fig. 6에 패치 영상 추출 사례를 나타냈었으며 총 4개의 시설에 대해 12개가 아닌 9개의 패치영상만 추출되었음을 알 수 있다. 각 기하 변화의 변동폭을 Table 2에 나타내었으며 결과적으로 약 45,000장의 패치 영상을 추출하였다.

Fig. 6. Nine patch images extracted around four facilities.

Table 2 Generation of random parameters of geometric transformation

Transformation typeRotation (degree)Center offset (pixel)Scaling factor
DistributionU (0, 360)U (0, 120)1.0+N (0.0, 0.05)

U: uniform distribution of given range, N: normal distribution of given mean and deviation.



아울러 환경변화에 대한 강건성 확보를 위하여 패치 영상 추출 시에 색상 변화를 부가하였다. 특히 한반도 모자이크 영상은 영상 융합 및 컬러 밸런싱에 의한 분광정보 왜곡이 두드러져 토지피복 분류 성능이 일반적인 KOMPSAT 영상 대비 저하되는 경향이 있으므로(Moon and Lee, 2019) 보편적인 성능 확보를 위해서는 색상에 대한 증강이 요구된다. 2019년도와 2020년도의 모자이크 영상에 있어서 8,849개의 동일 시설에 대한 YCbCr 컬러 모델의 색상 성분에 대한 차이를 측정했을 때 평균 제곱근 오차(RootMean Square Error, RMSE)는 Cb 및 Cr 성분에 대해 약 5.0이었으며 연도별 색상 성분의 산포를 Fig. 7에 나타냈다. 이를 토대로 추출된 RGB 패치 영상을 YCbCr로 변환하고 Cb 및 Cr 성분에 각각 N (0, 5.0)의 정규분포 노이즈를 추가하고 다시 RGB로 역변환하였으며 Fig. 8에 색상 증강 적용 전후 사례를 나타내었다.

Fig. 7. Color distribution of rural facilities in 2019 and 2020.

Fig. 8. Four examples of color augmentation. Examples are listed in (a–d), with the left part being the original image and the right part being the augmented image.

3.2. 역합성곱 기반 단순 네트워크

본 연구에서는 원격탐사 분야에서 주로 사용되는 U-Net 등의 영상 분할 네트워크를 대신하여 Fig. 9와 같이 기저 네트워크에 의한 특징량 생성과 역합성곱(deconvolution)에 의한 해상도 복원의 두 단계로 구성된 단순한 네트워크 구조를 채택하였다(Xiao et al., 2018). 네트워크의 출력은 클래스 별로 래스터(raster)화 한 이진 마스크 레이어(layer)이며 각 픽셀 위치의 클래스는 가장 높은 출력 값을 갖는 레이어의 인덱스(index)로 결정된다. 20개의 중복 모델을 학습하는 데 있어서 학습시간을 최소화 하기 위해서는 단순한 구조의 네트워크가 적합하고 또한 이는 과적합을 회피하기 위한 근본적인 대응 방법이 기도 하다. 또한 일반적인 영상분할 네트워크는 관심 객체의 크기가 거리에 따라 변하는 원근법을 감안하여 동일 해상도의 레이어 사이를 skip connection으로 연결하는 등의 기법으로 대처하는데 본 연구와 같이 입력영상의 지상해상도를 정규화한 상태에서는 관심 객체가 형상을 유지한채 크기만 달라지는 경우가 드물기 때문에 이러한 조치가 없는 단순한 구조가 바람직하다. 구조의 간결함뿐 아니라 분류 성능에 있어서도 동일 기저 네트워크를 갖는 DeepLab V3 (Chen et al., 2017)와 비교하여 유사 수준임을 확인하였다. 기저 네트워크로는 ResNeSt-50을 채택하였으며 이는 ResNet에 Split-Attention 블록을 가미하여 서로 다른 특징맵 그룹의 처리결과를 융합하여 성능향상을 도모한 네트워크이다(Zhang et al., 2022).

Fig. 9. The structure of deconvolution-based simple model.

3.3. 성능 지표

학습된 모델의 성능은 각 관심 시설의 정답지(Ground Truth, GT) 면적과 모델에 의하여 해당 시설로 추론된 면적으로부터 Intersection over Union (IOU)을 산출하고, 모든 시설에 대한 평균(mean IOU, mIOU)을 취하여 측정한다. 관심 시설의 면적은 전체 영상 면적의 3% 미만이므로 전체 픽셀에 대한 픽셀 정확도(Accuracy)는 항상 높은 값이 되어 변별력이 거의 없다. 마찬가지로 배경에 대한 IOU 또한 항상 높은 값을 갖기 때문에 평균을 취했을 때 성능 지표의 변별력을 떨어뜨린다. 결과적으로 관심 시설의 미탐지와 오탐지를 효과적으로 반영한 배경을 제외한 mIOU를 학습된 모델의 정량적인 성능지표로 간주하며 이는 식(1)과 같이 산출된다. 단, 학습 과정 중에 최적 에포크를 선정하기 위한mIOU산출시에만 배경 IOU를 포함하였다. 각 클래스에 대한 IOU는 confusion matrix를 구하고 식(1)을 적용하여 직접 산출할 수도 있고 식(2)와 같이 재현율(Recall)과 정밀도(Precision)를 구한 후 간접적으로 산출할 수도 있다.

IOUi=Area of TPiArea of GTi+Area of FPi,mIOU=13 i=1 3IOUi

여기서 i가 1은 축사, 2는 공장, 3은 태양광패널을 나타낸다. TP는 참양성(true positive), FP는 거짓 양성(false positive)을 의미한다.

IOUi=1recalli1+precision11

3.4. 중복 모델 및 개선 모델 학습

동일한 패치 영상과 라벨 자료에 대해 20개의 서로 다른 학습 및 검증 조합을 생성하여 20 개의 중복 모델을 학습하였다. 각각의 조합은 70%의 학습용 자료와 30%의 검증용 자료로 이루어진다. 이 때 하나의 패치 영상이 모든 조합에서 가급적 균등하게 검증 자료로 사용될 수 있도록 조정하여 하나의 패치 영상이 평균 6회씩 검증으로 사용되도록 하였다. 이렇게 학습된 중복 모델은 유사한 분류 성능을 갖지만 동일한 입력 영상에 대해 서로 다른 추론 결과를 생성한다. 어떤 입력 영상에 대해 이를 학습하지 않은 약 6개의 중복 모델의 추론 결과를 합성하면 집단 지성에 의해 보다 보편적인 분석 결과를 기대할 수 있다. 이러한 모델 중복성에 의한 과적합 완화 방법은 랜덤포레스트 분류기에서 여러 중복 트리에 의한 결과를 합산하고 out of bag 샘플에 대한 성능을 평가하는 과정과 유사하다(Breiman, 2001). 본 연구에서는 도출된 중복 모델을 이용하여 융합된 추론 결과를 단일 모델의 추론 결과와 비교하였다. 다만 상당한 성능 개선을 감안하더라도 추론 시간이 약 6배 정도 길어지므로 처리 장치의 성능과 응용의 긴급성 등 상황에 따라 현실적인 적용이 어려울 수 있다.

하나의 입력 영상에 대해 중복 모델의 추론 결과가 대체로 GT와 동일한 경우가 있고 반대로 대체로 GT와 상반된 결과를 나타낼 수 있다. 후자의 경우 학습 자료에 내재된 모순이 있거나 현 분류기로는 추론이 불가능한 이른바 혼란스러운 영역(confusing area)으로 정의할 수 있다. 또한 가장 큰 출력 값과 두 번째로 큰 출력 값 사이에 큰 차이가 없는 경우 의사 결정이 불분명한 것이며 이 경우도 혼란스러운 영역에 포함시킬 수 있다. 어떤 패치영상의 특정 픽셀에 대한 m번째 모델의 클래스 i에 대한 출력 값을 sm(i)라 하고 이를 모든 모델에 대해 적산한 출력 값을 S(i)= m=1Msm(i)이라 했을 때, 가장 값이 큰 클래스의 인덱스를 I1st, 두 번째로 큰 클래스의 인덱스를 I2nd 그리고 GT의 인덱스를 IGT라 한다면 의사 결정의 확고함 정도(consensus level, C)를 식(3)과 같이 나타내었다.

C=sign×2S(I1st)S(I1st)+S(I2nd)1,where sign=+1 if I1st==IGTelse1

C 값은 추론이 적중했을 경우 양수, 틀렸을 경우 음수를 갖게 된다. 또한 C의 절대값은 S(I1st) 이외의 값이 0일 경우 1.0을 갖고 S(I1st)가 S(I2nd)와 대등할 경우 0.0에 가까운 값을 갖게 된다. 본 연구에서는 C값이 음수 일 경우 집단 추론이 틀렸고 0.09 미만일 경우 의사 결정이 불분명한 것으로 간주하여 GT에서의 혼란스러운 영역 마스크로 지정하였다.

모델 학습 과정에서는 출력 레이어에서의 L2 loss를 최소화하도록 최적화하여 반복적인 파라미터(parameter) 수정이 이루어지는데 중복 모델에 의해 혼란스러운 영역으로 지정된 영역을 loss 산출에서 제외함으로써 과적합을 억제하는 효과를 기대할 수 있다. 왜냐하면이 영역은 GT가 부정확하거나 현 분류기가 이해할 수 없는 영역이기 때문에 오히려 분류기의 판단을 혼란스럽게 만들기 때문이다. 본 연구에서는 혼란스러운 영역을 제외한 GT를 이용해 학습한 모델을 개선 모델로 정의하고 그 추론 성능을 기존 모델과 비교하고 개선 사례를 분석하였다.

4.1. DeepLab V3와 역합성곱 기반 단순 네트워크의 비교

인텔사의 Xeon Gold 6234 CPU와 128GB RAM이 탑재된 컴퓨터에서 NVidia사의 RTX8000 GPU를 이용하여 DeepLab V3와 단순 네트워크를 학습하여 비교하였으며 이들의 기저 네트워크는 ResNeSt-50으로 동일하다. 분류 성능 비교에 앞서 학습 가능한 파라미터 수와 에포크 당 학습 시간을 Table 3에서 비교하였는데 학습 시간 자체는 유사하지만 DeepLab의 경우 동기화된 배치 정규화(Ioffe and Szegedy, 2015)를 통해 GPU 2개를 동시에 사용했기 때문에 GPU 1개당 학습시간으로 비교하면 약 2배의 시간이 걸린 셈이다.

Table 3 Generation of random parameters of geometric transformation

NetworkDeepLab V3Deconvolution-based simple network
Number of learnable parameters43,921,54438,020,740
Elapsed time to train an epoch (in minutes)62.764.6
Number of GPUs used for training21


다음으로 학습 진행에 따른 검증 성능의 추이를 Fig. 10에 나타냈다. 성능 지표인 배경을 제외한mIOU에 대해DeepLab은 74.9%, 단순 네트워크는 76.6%를 기록하였으며 둘 다 약 60 에포크(epoch) 전후에서 수렴하였다. 두 심층신경망은 학습 시간에서는 큰 차이를 보인 반면 분류 성능에 있어서는 단순 네트워크의 mIOU가 1.7% 높았으나 그 차이가 크지 않음을 알 수 있다. Fig. 11에서 검증 데이터에 대한 입력영상과 GT 그리고 각 네트워크의 추론 결과 사례를 비교하였다. 전반적으로 DeepLab은 시설 윤곽에 작은 왜곡이 나타나는 편이며 태양광 패널과 같이 폭이 좁은 시설에서 불안한 탐지 성능을 보였다. 다만 두 네트워크의 검증 성능은 유사하며 상대적으로 짧은 학습시간, 단조로운 네트워크 구조에 따른 과적합 완화 가능성을 감안하여 단순 네트워크가 본 연구에서는 합리적인 선택임을 확인하였다.

Fig. 10. Comparison of training metrics for two deep neural networks.

Fig. 11. Comparison of inference results of two deep neural networks (green: barns, purple: factories, and cyan: solar panels). (a) Input image. (b) GT. (c) DeepLab V3. (d) Simple network.

4.2. 단일 모델 학습 결과

일반적으로 심층신경망의 학습 결과는 초기치 설정 등의 랜덤 요소에 의해 학습할 때마다 서로 다른 성능을 보인다. 본 연구에서는 20개의 중복 모델을 학습하고 모든 학습 결과에 대한 통계를 구하여 보다 정확한 검증 성능을 측정하였다. Table 4에 검증 자료에 대해서 측정된 성능을 나타내었다. 공장 클래스의 IOU가 0.807로 가장 높았으며 태양광 패널의 IOU가 0.714로 가장 낮았다. 배경을 제외한 클래스의 mIOU는 0.767이었다.

Table 4 Performance of a single model on validation sets

ClassRecallPrecisionIOU
Background0.9890.9870.976
Barn0.8690.8820.779
Factory0.8870.9000.807
Solar panel0.8380.8280.714
mIOU w/o BG0.767

w/o BG: without background.



4.3. 중복 모델의 추론 결과를 융합한 결과

하나의 검증 영상에 대해 이를 학습하지 않은 M개의 중복모델 중 m번째 모델의 클래스 i에 대한 출력 값을 sm(i) 라고 했을 때 중복 모델에 의한 추정 클래스는 식(4)와 같이 결정된다.

x=argmaxi m=1Msm(i)

여기서 i가 1은 축사, 2는 공장, 3은 태양광패널을 나타낸다.

검증 자료에 대한 중복 모델의 융합 결과의 성능과 단일 모델과의 비교 결과를 Table 5에 나타내었다. 전체 성능에 있어서 약 3.4%의 개선이 있었고 특히 성능이 가장 낮았던 태양광 패널에 대해서는 4.3% 개선되었다. 이러한 개선 효과는 서로 다른 학습자료로 학습 된 중복 모델들의 추정 결과에 의한 집단 지성이 발휘 된 것으로 추정할 수 있다. 다만 중복 모델의 추론결과 융합은 전반적인 성능 개선 효과에도 불구하고 처리 시간이 큰 폭으로 증가하는 문제점이 있다.

Table 5 Performance of redundant models and comparison with single model

ClassSingle modelRedundant modelDifference
Background0.9760.980+0.4%
Barn0.7790.810+3.1%
Factory0.8070.835+2.8%
Solar panel0.7140.757+4.3%
mIOU w/o BG0.7670.801+3.4%


4.4. 혼란스러운 영역의 선정 및 개선 모델 학습

중복모델의 추론 결과를 바탕으로 식(3)의 consensus level 검사에 따라 도출된 혼란스러운 영역 여부를 GT 자료의 모든 픽셀 위치에 대해 비트 정보를 추가하여 기록하였으며, 하나의 검증 패치 사례를 Fig. 12에 나타내었다. Fig. 12(a)는 입력 영상이고 Fig. 12(e)는 이에 대한 6개의 중복 모델의 추론 결과이며 이들을 통해 생성된 융합 결과가 Fig. 12(d)이다. Fig. 12(c)는 Fig.12(b)에 나타낸 GT와 융합 결과의 비교를 통한 consensus level 검사에 의하여 선정된 혼란스러운 영역을 나타낸다. 전반적으로 시설의 경계가 혼란스러운 영역으로 선정된 이유는 휴먼에러에 의한 정답지 작성의 편차가 나타난 것으로 판단되며 좌상단 푸른 건물의 그림자 영역과 우상단 주황색 건물의 흰색 공터 부분에 대해서는 GT에 내재된 모순 혹은 분류기에 의한 판별이 불가능한 영역으로 추정된다.

Fig. 12. Confusing mask generated from merged results from redundant models. (a) Input patch. (b) GT. (c) Confusing mask. (d) Merged results of redundant models. (e) Inference results from redundant models.

다음으로 모델 파라미터 최적화를 위한 손실(loss) 산출 시 혼란스러운 영역을 배제하여 개선 모델을 학습하였으며 이는 명백한 영역에서만 학습을 진행하고 애매한 영역의 추론은 모델의 판단에 맡기는 취지이다. Table 6에서 혼란스럽지 않은 영역에서의 성능을 비교하였다. 전반인 분류 성능이 개선되었으며 태양광 유형은 3.7% 개선되었다. Table 7에는 혼란스러운 영역에서의 성능을 비교하였다. 이 영역에서는 개선 모델의 학습 파라미터 갱신이 일어나지 않으므로 대체로 성능이 저하되지만, 두 영역 모두에서의 성능은 배경을 배제한 mIOU가 0.767에서 0.781로 1.4% 개선되었다. 이는 중복 모델의 융합 대비 작은 양이지만 동일 처리 시간으로 얻어지는 개선 효과이다.

Table 6 Comparison of the single model and the improved model for the non-confusing area

ClassSingle modelImproved modelDifference
Background0.9930.997+0.4%
Barn0.9250.940+1.5%
Factory0.9370.948+1.1%
Solar panel0.8960.933+3.7%
mIOU w/o BG0.9190.940+2.1%


Table 7 Comparison of the single model and the improved model for the confusing area

ClassSingle modelImproved modelDifference
Background0.1640.172+0.8%
Barn0.1410.122-1.9%
Factory0.1410.116-2.5%
Solar panel0.1760.195+1.9%
mIOU w/o BG0.1530.144-0.9%


또한 GT에는 없는 크기가 매우 작은 탐지 영역은 추론 결과의 불안정성을 나타내는데 단일 모델은 이러한 탐지 영역의 비율이 15.9%인 반면 개선 모델에서는 11.0%로 감소하였다. 이는 전반적인 추론품질의 개선으로 간주할 수 있고, 아래 Fig. 13에 나타낸 학습에는 사용되지 않은 2021년도 신규 영상에서의 추론 결과의 품질 비교를 통해 개선 효과를 확인할 수 있다. Fig. 13(b)에 나타낸 GT는 입력영상의 이전 년도의 자료이므로 정확한 정답이 아닌 참고용 자료이다.

Fig. 13. Comparison of the quality of the single model and the improved model (green: barns, purple: factories, and cyan: solar panels). (a) Input. (b) 2020 GT. (c) Single model results. (d) Improved model results.

본 연구에서는 농촌재구조화 과정에서 요구되는 모니터링 수단으로서 KOMPSAT 모자이크 영상 내에 존재하는 농촌 시설의 자동 분할에 대한 연구를 수행하였으며 이를 위한 학습자료 구축 및 딥러닝 기반 모델의 적용 결과를 분석하였다. 학습자료는 4개의 도시에 대해 2019년, 2020년에 제작된 KOMPSAT 모자이크 영상과 이에 대한 지상 참조자료를 바탕으로 작성된 라벨자료로 구성되며, 모델 파라미터 학습을 위하여 기하학적인 변형과 색상 변화 적용을 통해 샘플을 증강하였다. 분할 대상인 축사와 공장은 일반 건물과 육안으로 식별이 어려운 경우가 빈번하며 이러한 GT에 내재하는 모순으로 인한 과적합을 완화하기 위하여 상대적으로 복잡도가 낮은 역합성곱기반 단순네트워크를 채택하였고 상대적으로 높은 복잡도의DeepLab V3 모델과의 비교를 통해 성능 차이가 크지 않음을 확인하였다. 또한 학습 및 검증 조합을 달리하여 학습된 20개의 중복 모델의 추론 결과를 합성하여 상당한 성능 개선 효과를 확인하였다. 비록 몇 배의 처리시간이 소요되어 신속성이 요구되는 응용에는 적용이 어려우나 학습 자료 자동 정제 등 보다 높은 신뢰성이 우선되는 상황에서는 유용한 대응 방법일 수 있다.

여러 중복모델의 융합 추론의 결과가 틀렸거나 혹은 consensus level이 낮은 부분은 애초에 분류가 불가능한 모순 영역이거나 현 모델로는 분류가 어려운 혼라스러운 영역으로 정의하였으며 실제로 이러한 영역은 라벨 작성자의 휴먼에러가 빈번한 경계 영역이나 육안으로도 식별이 어려운 영역임을 확인하였다. 이러한 혼란스러운 영역을 모델 파라미터 최적화 과정에서 제외하여 학습된 개선 모델은 기존의 단일 모델 대비 보다 나은 검증 성능을 보였고 특히 혼란스러운 영역이 아닌 일반 영역에서는 뚜렷한 개선 효과를 보였다. 다만 혼란스러운 영역에서는 오히려 성능이 낮아지는 현상이 나타났는데 이는 배경과 대상 건물 간에 외관상 차이가 거의 없는 경우인 것으로 추정된다. 그러므로 혼란스러운 영역에 있어서 휴먼 에러에 대한 개선은 기대할 수 있으나 근본적인 모순에 대한 개선에 대해서는 추가적인 연구가 필요할 것으로 판단된다. 그럼에도 지나치게 작은 넓이의 탐지 영역의 비율이 낮아져 보다 안정적인 추론이 이루어졌음을 확인하였고 학습에 사용되지 않은 2021년도 영상에 대한 추론 결과를 비교하여 이러한 효과를 정성적으로 확인하였다.

학습기반 분류 모델의 궁극적인 성능 개선에는 지속적인 학습자료 보강이 반드시 필요하지만 본 연구에서는 학습자료가 이미 주어진 상황에서 GT에 모순이나 오류가 내재된 경우에 안정적인 추론 성능을 위한 두 가지 개선 방법을 제안하였으며 이는 특정 딥러닝 모델에 국한되지 않고 적용이 가능하다. 다만 학습자료가 지속적으로 추가되는 상황이라면 이에 따른 중복 모델 파라미터의 갱신, 혼란스러운 영역과 개선 모델 파라미터의 변화 등도 고려되어야 한다. 이에 향후에는 지속적인 성능 개선을 위한 프로세스 구축과 더불어 영상분류, 객체 탐지에 대한 확대 적용 방법에 대해 연구할 예정이다.

본 연구는 한국항공우주연구원 ‘정부 위성정보활용협의체 지원(FR24J00)’과제의 지원을 받아 수행되었습니다.

No potential conflict of interest relevant to this article was reported.

  1. Baek, W. K., Lee, M. J., and Jung, H. S., 2022. The performance improvement of U-Net model for landcover semantic segmentation through data augmentation. Korean Journal of Remote Sensing, 38(6-2), 1663-1676. https://doi.org/10.7780/kjrs.2022.38.6.2.8
  2. Breiman, L., 2001. Random forests. Machine Learning, 45, 5-32. http://doi.org/10.1023/A:1010933404324
  3. Chae, H., Rhim, H., Lee, J., and Choi, J., 2022. Exploratory study of the applicability of Kompsat 3/3A satellite pan-sharpened imagery using semantic segmentation model. Korean Journal of Remote Sensing, 38(6-4), 1889-1900. https://doi.org/10.7780/kjrs.2022.38.6.4.3
  4. Chen, L. C., Papandreou, G., Schroff, F., and Adam, H., 2017. Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587. https://doi.org/10.48550/arXiv.1706.05587
  5. Demir, I., Koperski, K., Lindenbaum, D., Pang, G., Huang, J., and Basu, S., et al, 2018. Deepglobe 2018: A challenge to parse the Earth through satellite images. arXiv preprint arXiv:1805.06561. https://doi.org/10.48550/arXiv.1805.06561
  6. Feng, W., Sui, H., Huang, W., Xu, C., and An, K., 2019. Water body extraction from very high-resolution remote sensing imagery using deep U-Net and a superpixel-based conditional random field model. IEEE Geoscience and Remote Sensing Letters, 16(4), 618-622. https://doi.org/10.1109/LGRS.2018.2879492
  7. Ioffe, S., and Szegedy, C., 2015. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167. https://doi.org/10.48550/arXiv.1502.03167
  8. Lee, S. H., and Lee, M. J., 2020. A study on deep learning optimization by land cover classification item using satellite imagery. Korean Journal of Remote Sensing, 36(6-2), 1591-1604. https://doi.org/10.7780/kjrs.2020.36.6.2.9
  9. Lee, Y. S., Park, S. H., Jung, H. S., and Baek, W. K., 2018. Classification of natural and artificial forests from KOMPSAT-3/3A/5 images using artificial neural network. Korean Journal of Remote Sensing, 37(6-3), 1399-1414. https://doi.org/10.7780/kjrs.2018.34.6.3.7
  10. Li, Y., Hou, Q., Zheng, Z., Cheng, M. M., Yang, J., and Li, X., 2023. Large selective kernel network for remote sensing object detection. arXiv preprint arXiv:2303.09030. https://doi.org/10.48550/arXiv.2303.09030
  11. Maggiori, E., Tarabalka, Y., Charpiat, G., and Alliez, P., 2017. Can semantic labeling methods generalize to any city? The inria aerial image labeling benchmark. In Proceedings of the 2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS), Fort Worth, TX, USA, July 23-28, pp. 3226-3229. https://doi.org/10.1109/IGARSS.2017.8127684
  12. Mnih, V., and Hinton, G. E., 2010. Learning to detect roads in highresolution aerial images. In: Daniilidis, K., Maragos, P., Paragios, N., (eds.), Computer vision - ECCV 2010, Springer, pp. 210-223. https://doi.org/10.1007/978-3-642-15567-3_16
  13. Moon, J., and Lee, K. J., 2019. A comparative study on the possibility of land cover classification of the mosaic images on the Korean Peninsula. Korean Journal of Remote Sensing, 35(6-4), 1319-1326. https://doi.org/10.7780/kjrs.2019.35.6.4.2
  14. Pan, Z., Xu, J., Guo, Y., Hu, Y., and Wang, G., 2020. Deep learning segmentation and classification for urban village using a Worldview satellite image based on U-Net. Remote Sensing, 12(10), 1574. https://doi.org/10.3390/rs12101574
  15. Park, C., Jung, H., Lee, W., Lee, K., Oh, K., Chang, J., and Lee, M., 2023. Classification of industrial parks and quarries using U-Net from KOMPSAT-3/3A imagery. Korean Journal of Remote Sensing, 39(6-3), 1679-1692. https://doi.org/10.7780/kjrs.2023.39.6.3.2
  16. Ulmas, P., and Liiv, I., 2020. Segmentation of satellite imagery using UNet models for land cover classification. arXiv preprint arXiv: 2003.02899. https://doi.org/10.48550/arXiv.2003.02899
  17. Vezhnevets, A., and Barinova, O., 2007. Avoiding boosting overfitting by removing confusing samples. In: Kok, J. N., Koronacki, J., Mantaras, R. L. D., Matwin, S., Mladenič, D., Skowron, A., (eds.), Machine learning: ECML 2007, Springer, pp. 430-441. https://doi.org/10.1007/978-3-540-74958-5_40
  18. Wang, L., Li, R., Wang, D., Duan, C., Wang, T., and Meng, X., 2021. Transformer meets convolution: A bilateral awareness network for semantic segmentation of very fine resolution urban scene images. arXiv preprint arXiv:2106.12413. https://doi.org/10.48550/arXiv.2106.12413
  19. Xiao, B., Wu, H., and Wei, Y., 2018. Simple baselines for human pose estimation and tracking. arXiv preprint arXiv:1804.06208. https://doi.org/10.48550/arXiv.1804.06208
  20. Youn, H., and Jeong, J., 2020. KOMPSAT-3A urban classification using machine learning algorithm - Focusing on Yangjae in Seoul -. Korean Journal of Remote Sensing, 36(6-2), 1567-1577. https://doi.org/10.7780/kjrs.2020.36.6.2.7
  21. Zhang, H., Wu, C., Zhang, Z., Zhu, Y., Lin, H., and Zhang, Z., et al, 2022. Resnest: Split-attention networks. arXiv preprint arXiv.2004.08955. https://doi.org/10.48550/arXiv.2004.08955
  22. Zhang, X., Du, S., Wang, Q., and Zhou, W., 2018. Multiscale geoscene segmentation for extracting urban functional zones from VHR satellite images. Remote Sensing, 10(2), 281. https://doi.org/10.3390/rs10020281

Research Article

Korean J. Remote Sens. 2024; 40(6): 1397-1408

Published online December 31, 2024 https://doi.org/10.7780/kjrs.2024.40.6.3.2

Copyright © Korean Society of Remote Sensing.

중복 딥러닝 모델을 이용한 KOMPSAT 광학영상에서의 농촌시설 분할에 대한 연구

장재영1*, 오관영2, 이선구1

1한국항공우주연구원 위성활용부 책임연구원
2한국항공우주연구원 위성활용부 선임연구원

Received: September 2, 2024; Revised: September 24, 2024; Accepted: September 24, 2024

A Study on Segmentation of Rural Facilities through Redundant Deep Learning Models Using KOMPSAT Optical Images

Jae Young Chang1* , Kwan-Young Oh2, Sun-Gu Lee1

1Principal Researcher, Satellite Application Division, Korea Aerospace Research Institute, Daejeon, Republic of Korea
2Senior Researcher, Satellite Application Division, Korea Aerospace Research Institute, Daejeon, Republic of Korea

Correspondence to:Jae Young Chang
E-mail: jychang@kari.re.kr

Received: September 2, 2024; Revised: September 24, 2024; Accepted: September 24, 2024

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Abstract

Rural facilities such as factories and barns near residential areas cause pollution and civil complaints. They are managed through legal registration, but there are still conflicts and inconsistencies. In Korea, the Rural Spatial Restructuring Act will come into effect in March this year. It will promote long-term rural area construction plans and support new public businesses. In this situation, it is essential to have a means to accurately and efficiently identify the status and changes in rural facilities. In this study, we constructed a dataset containing the Korea Multi-purpose Satellite (KOMPSAT) optical images and associated rural facility masks for four cities in South Korea in 2019 and 2020. A deep learning-based segmentation method was then applied to the dataset. Satellite images only show roofs, making it inherently difficult to completely distinguish between building types. Non-target buildings often look almost identical to the target. The higher the complexity of the deep neural network architecture, the more likely these inconsistencies are to cause overfitting problems. For better universal performance, we constructed redundant models from different combinations of data. Redundant models produce different inference results for the same validation sample. Averaging this gives more reliable results. Finally, we also performed a performance comparison between the original model and the new model optimized within the trust region guaranteed by the redundant models.

Keywords: Satellite optical imagery, KOMPSAT, Deep learning, Rural area, Overfitting, Semantic segmentation

1. 서론

도시적 토지 이용을 목적으로 한 농산지 전용 및 개발허가가 증가하며 주거지 인근에 악취나 소음이 발생하는 시설이 들어서고 있으며, 2019년도에는 주거지의 500 m 이내에 있는 공장(82%), 축사(77%), 태양광시설(62%)이 과반을 차지하였다. 이러한 토지이용 및 주거문제 이외에도 농촌 지역의 인구감소 및 고령화 대응, 농촌 지역의 생활서비스 개선, 농촌융복합 산업 활성화 등 종합적인 관점에서의 대응을 위해 “농촌공간 재구조화 및 재생지원에 관한 법률”이 제정되고 2024년 3월 29일에 시행되었다. 농촌공간 재구조화는 농촌공간을 주거, 축산, 공장, 융복합 산업 등 7개 기능별로 구획 및 집적화하여 정주여건 개선 및 산업육성 기반 강화를 도모하는 것이다. 이는 기존에 주거 지역과 혼재하고 있던 공장, 축사, 발전시설 등의 재배치를 의미하는데, 농촌이 전체 국토면적의 89%를 차지하는 만큼 광범위하게 전개되어야 하는 농촌공간 재구조화에 있어서 농촌 환경의 현 상태를 효율적으로 모니터링하고 나아가 체계적으로 진척 상황을 파악할 수 있는 수단이 반드시 필요하다.

한편 지구관측 인공위성을 이용하면 임의 지역의 영상을 원하는 시점에 얻을 수 있다. 우리나라가 보유하는 광학 지구관측 위성 중 아리랑 3호, 아리랑 3A호, 차세대중형위성 1호는 픽셀(pixel)당 1 m 미만의 지상해상도를 갖는 센서를 통해 농촌 시설을 육안으로 식별할 수 있을 정도의 고해상도 영상을 취득할 수 있다. 또한 최근 급속히 발전하는 인공지능 기술을 이용한 영상 분할 기법을 접목하면 농촌 시설 탐지 및 분류 작업을 자동화할 수 있다. 즉 국토 전체의 농촌 상황에 대한 1차적인 모니터링을 사람의 개입을 최소화 한 채 주기적 수행할 수 있는 체계를 구축할 수 있게 된다.

최근 인공지능 기반 영상분석 기법을 원격탐사 분야에 적용하는 연구가 활발히 진행되고 있으며 U-Net 모델 기반 영상분할 기법을 이용한 수체 탐지, 토지 피복 분류, 태양광 패널 탐지 등 다양한 연구에 있어서 우수한 성능을 입증한 바 있다(Feng et al., 2019; Ulmas and Liiv, 2020). 특히 토지 피복이나 도시 내 기능지역 분할 연구에 대해서도 산업단지와 같은 특정 객체를 효과적으로 구분한 선행 연구들이 존재한다(Zhang et al., 2018; Pan et al., 2020). 다만 산업단지 등은 용도에 따라 외관상 큰 차이를 보이지만 본 연구의 탐지 대상인 축사와 공장은 일반 건물과 유사한 형상을 띄는 경우가 많다는 점이 기존 연구와 대비된다.

또한 인공지능 기술의 원격탐사 분야로의 적용에 발맞추어 고해상도 위성영상 혹은 항공영상 기반의 다양한 데이터셋이 공개되었다. 매사추세츠 건물 데이터셋은 보스턴 지역에서 촬영된 지상해상도 1미터의 영상에 대한 다양한 건물 위치 정보를 포함하고 있다(Mnih and Hinton, 2010). 국제 사진측량 및 원격탐사학회(International Society of Photogrammetry and Remote Sensing, ISPRS)가 배포한 포츠담-바이힌겐 데이터셋은 픽셀당 5에서 9 cm의 고해상도 항공영상과 수치표면모델 및 토지피복 정보를 함께 제공하며 이를 이용한 연구가 지속적으로 이루어지고 있다(Wang et al., 2021; Li et al., 2023). 딥글로브(DeepGlobe) 데이터셋은 딥글로브사가 보유한 위성에서 촬영된 지상해상도 50 cm 급의 위성영상을 바탕으로 도로, 건물, 토지피복 정보를 동시에 제공한다(Demir et al., 2018). 인리아(Inria) 항공이미지 라벨링 데이터셋은 미국과 유럽 도시에 대해 810 km2에 달하는 30 cm급 항공 영상으로 구성되며 건물 정보를 포함한다(Maggiori et al., 2017). 다양한 데이터셋이 꾸준히 공개되고 있는 한편으로 그 품질은 다양하고 다수의 오류를 내포하고 있는 것이 사실이다. 그러므로 완전무결한 정답지로서의 데이터셋이 아니라 내재된 오류를 감안한 알고리즘이나 성능개선이 요구되며 본 연구에서는 다중모델의 집단지성을 이용해 혼란스러운 영역 판별 및 성능개선을 도모하였다.

국내에서 진행된 유사 연구로는 고해상도 국가위성 위성영상에 대한 U-Net 기반 영상분할 적용 연구가 주를 이루며 AI Hub에서 제공되는 토지피복 위성자료를 이용한 토지피복 분류와 샘플 확장 효과에 대한 연구(Baek et al., 2022), KOMPSAT 3, 3A, 5호 영상을 이용한 자연림과 인공림의 분류(Lee et al., 2018), KOMPSAT 3, 3A호 영상을 이용한 도로영역 탐지에 대한 연구(Chae et al., 2022), KOMPSAT 3, 3A호 영상을 이용한 대기오염원 분할 연구(Park et al., 2023) 등이 있다. 이들 연구에서 공통적으로 나타난 결과는 고해상도 위성영상의 영상분할에 있어서 모델 복잡도와 정확도는 반드시 비례하지 않으며 샘플 확장 기법을 통해 부족한 정답지를 확충하여 보다 높은 성능을 얻을 수 있다는 점이다. 특히 KOMPSAT 3A호 영상을 이용한 서울시 양재 지역의 시가화 영상 분류에 대한 연구(Youn and Jeong, 2020)에서는 인공신경망 대비 Support Vector Machine (SVM)의 정확도가 높게 나타난 점에서 모델 복잡도가 반드시 높은 성능을 보장하지 않음을 시사한다. 또한 KOMPSAT 3호 영상에서의 토지피복에 대하여 여러 딥러닝 모델의 성능을 비교 평가한 연구(Lee and Lee, 2020)에서는 모델마다 정확도가 높은 클래스가 달리 나타나 상이한 모델의 추론 결과를 융합하는 방법에 대한 가능성을 제시하였다.

본 연구에서는 딥러닝 기반 영상분할 기법을 이용하여 농촌재구조화의 주요 관심시설인 축사, 공장, 태양광 패널의 3가지 시설에 대한 영상 분할을 시도하였다. 이는 기존 연구나 데이터셋에서 다뤄지는 건물이나 토지피복 분류와는 달리, 건물 클래스 내에서도 특정 시설 만을 분류해야 하며 기타 건물은 배경으로 간주되어야 한다. 그러나 위성영상에서는 상공에서 내려다본 형상만 보여 탐지 대상과 유사한 일반 건물이나 반대로 탐지 대상임에도 일반 건물처럼 보이는 경우가 흔히 존재한다. 이러한 학습자료에 내재하는 모순은 높은 복잡도의 분류기에서 과적합을 유발하기 쉽고 결과적으로 신규 영상에서 기대 이하의 추론 성능을 나타낼 수 있다. 이에 본 연구에서는 시범 지역에 대한 학습자료를 구축하고 이에 딥러닝 모델을 적용하여 농촌시설을 분류하고, 나아가 중복 모델 구축에 의한 과적합 완화기법을 적용하여 보편적인 성능 개선을 도모하였다.

2. 연구 지역 및 자료

2.1. 연구 지역

본 연구의 연구 지역은 2022년에 진행된 농촌 위해 시설 정비사업의 농촌협약 대상지로 선정된 거창군, 나주시, 서산시, 안성시로 설정하였으며 해당지역에는 관심 시설인 공장, 축사, 태양광 패널이 넓게 분포하고 있어서 학습자료 구축 및 알고리즘의 성능 검증에 적합한 지역이다. 이들의 지상에서 보여지는 모습의 사례를 Fig. 1에 나타내었으며 Table 1에는 데이터셋에 포함된 각 지역별 시설 수를 나타내었다. 이를 통해 전반적으로 축사의 수가 많고 태양광 패널의 수가 적으며, 안성 지역에 공장이 밀집되어 있고 나주 지역에 태양광 시설이 많음을 알 수 있다.

Figure 1. Actual appearance of rural facilities. (a) Pig barn. (b) Fertilizer plant. (c) Solar panels.

Table 1 . The number of facilities in the dataset for this study.

Rural facilityArea
GeochangNajuSeosanAnsungTotal
Barn1,9862,8352,5082,88110,210
Factory1655744362,0213,196
Solar panel202314128155799


2.2. 연구 자료

본 연구에서는 한국항공우주연구원(KoreaAerospaceResearchInstitute)에서 년 단위로 제작하여 정부부처를 대상으로 배포하는 한반도 모자이크 영상 자료를 이용하였다. 이는 한반도 전 지역에 대해 아리랑광학위성 영상을 수집하여 정사 기하보정 및 색상 보정을 적용한 제품으로 픽셀당 1 m 해상도의 RGB 영상으로 구성된다. 본 연구에서는 시계열적인 변화와 환경적인 요인에 의한 화질 변화를 학습자료에 반영하기 위하여 2019년도와 2020년도 두 해의 모자이크 영상을 사용하였다. 단, 2020년도 모자이크 영상은 예외적으로 픽셀당 70 cm의 해상도를 갖기 때문에 2019년도 모자이크 영상도 70 cm 해상도로 통일하여 사용하였다. 이로서 대상 객체의 픽셀 크기에 대한 일관성을 확보하였고 고주파성분이 상대적으로 빈약한 2019년도 영상자료는 저주파 필터링에 의한 샘플 증강 효과를 기대할 수 있다. 하나의 씬(scene) 영상은 약 17,000 × 20,000 픽셀 크기이며 연구 지역을 모두 포함하기 위해서는 Fig. 2와 같이 한 해 당 총 23씬의 모자이크 영상이 필요하다. 아울러 한국농촌경제연구원(Korea Rural Economic Institute)으로부터 제공받은 농촌시설의 주소 정보를 이용하여 대략적인 위치를 파악하고, 상응하는 모자이크 영상을 겹쳐놓은 상태에서 수작업으로 시설 경계를 가공하여 클래스 정보 태그(tag)를 갖는 폴리곤(polygon) 형태의 벡터(vector) 자료로 저장하였다.

Figure 2. The mosaic images including the target cities.

3. 연구 방법

Fig. 3에 본 연구에서 수행한 작업의 흐름을 나타내었으며 이는 원시자료 수집, 학습자료 가공, 심층신경망 학습으로 이어지는 일반적인 처리 과정에 더하여 보편성능 개선을 위한 중복 심층신경망 학습과 개선모델 학습 과정으로 구성된다. AdaBoost 분류기에 대한 과적합 완화를 위하여 혼란스러운 학습 샘플의 제거 방법에 대한 연구가 있었으며 이는 동일한 학습자료에 대해 서로 다른 조합으로 중복 모델을 학습하고 이들의 추론 결과에 일관성이 없는 샘플을 혼란스러운 샘플(confusing sample)로 지정하여 학습 과정에서 제외하는 방법이다(Vezhnevets and Barinova, 2007). 본 연구에서는 이를 딥러닝 기반 영상분할 모델에 변형하여 적용하였으며 중복 모델에 의해 도출된 혼란스러운 픽셀 영역에 휴먼에러(human error)로 인해 일관성이 떨어지는 경계 영역과 시각적으로 분류가 어려운 영역이 포함되는 것을 확인하였다. 마지막으로 일반적인 절차로 학습된 단일 모델과 비교하여 중복 모델의 융합 결과와 혼란스러운 픽셀을 제외하여 학습한 개선 모델의 추론 결과를 비교하였다.

Figure 3. Data processing flow of this study.

3.1. 원시자료 수집 및 학습자료의 가공

원활한 라벨링 작업을 위하여 수집된 관심 지역의 모자이크 영상을 4,096 × 4,096 픽셀 크기의 겹치지 않는 타일 영상으로 분할하였다. 농촌시설이 전혀 포함되지 않은 타일을 연구 자료에서 제외하면 최종적으로 270장의 타일이 생성된다. Fig. 4에 각 도시 별 타일영상의 분포를 나타내었으며 Fig. 5에는 타일 영상과 수작업으로 작성된 라벨 정보의 사례를 나타내었다.

Figure 4. Splitting mosaic scene images into 270 tile images.

Figure 5. An example of annotation. (a) Tile image. (b) Labels (green: barns, purple: factories, and cyan: solar panels).

심층신경망 입력으로 사용되는 패치(patch) 영상의 크기는 480 × 480 픽셀로 설정하였으며 타일영상과 라벨정보로부터 샘플 증강 과정을 거쳐 생성하였다. 패치 영상은 하나의 시설 위치로부터 랜덤한 이동, 회전, 축적(scaling) 변화를 부여하여 3장씩 추출하였다. 어떤 패치 영상에는 하나 이상의 시설이 포함될 수 있으므로 학습자료에서의 각 시설의 노출 빈도를 균등하게 맞추기 위해서 추출 패치 수를 조절하였다. Fig. 6에 패치 영상 추출 사례를 나타냈었으며 총 4개의 시설에 대해 12개가 아닌 9개의 패치영상만 추출되었음을 알 수 있다. 각 기하 변화의 변동폭을 Table 2에 나타내었으며 결과적으로 약 45,000장의 패치 영상을 추출하였다.

Figure 6. Nine patch images extracted around four facilities.

Table 2 . Generation of random parameters of geometric transformation.

Transformation typeRotation (degree)Center offset (pixel)Scaling factor
DistributionU (0, 360)U (0, 120)1.0+N (0.0, 0.05)

U: uniform distribution of given range, N: normal distribution of given mean and deviation..



아울러 환경변화에 대한 강건성 확보를 위하여 패치 영상 추출 시에 색상 변화를 부가하였다. 특히 한반도 모자이크 영상은 영상 융합 및 컬러 밸런싱에 의한 분광정보 왜곡이 두드러져 토지피복 분류 성능이 일반적인 KOMPSAT 영상 대비 저하되는 경향이 있으므로(Moon and Lee, 2019) 보편적인 성능 확보를 위해서는 색상에 대한 증강이 요구된다. 2019년도와 2020년도의 모자이크 영상에 있어서 8,849개의 동일 시설에 대한 YCbCr 컬러 모델의 색상 성분에 대한 차이를 측정했을 때 평균 제곱근 오차(RootMean Square Error, RMSE)는 Cb 및 Cr 성분에 대해 약 5.0이었으며 연도별 색상 성분의 산포를 Fig. 7에 나타냈다. 이를 토대로 추출된 RGB 패치 영상을 YCbCr로 변환하고 Cb 및 Cr 성분에 각각 N (0, 5.0)의 정규분포 노이즈를 추가하고 다시 RGB로 역변환하였으며 Fig. 8에 색상 증강 적용 전후 사례를 나타내었다.

Figure 7. Color distribution of rural facilities in 2019 and 2020.

Figure 8. Four examples of color augmentation. Examples are listed in (a–d), with the left part being the original image and the right part being the augmented image.

3.2. 역합성곱 기반 단순 네트워크

본 연구에서는 원격탐사 분야에서 주로 사용되는 U-Net 등의 영상 분할 네트워크를 대신하여 Fig. 9와 같이 기저 네트워크에 의한 특징량 생성과 역합성곱(deconvolution)에 의한 해상도 복원의 두 단계로 구성된 단순한 네트워크 구조를 채택하였다(Xiao et al., 2018). 네트워크의 출력은 클래스 별로 래스터(raster)화 한 이진 마스크 레이어(layer)이며 각 픽셀 위치의 클래스는 가장 높은 출력 값을 갖는 레이어의 인덱스(index)로 결정된다. 20개의 중복 모델을 학습하는 데 있어서 학습시간을 최소화 하기 위해서는 단순한 구조의 네트워크가 적합하고 또한 이는 과적합을 회피하기 위한 근본적인 대응 방법이 기도 하다. 또한 일반적인 영상분할 네트워크는 관심 객체의 크기가 거리에 따라 변하는 원근법을 감안하여 동일 해상도의 레이어 사이를 skip connection으로 연결하는 등의 기법으로 대처하는데 본 연구와 같이 입력영상의 지상해상도를 정규화한 상태에서는 관심 객체가 형상을 유지한채 크기만 달라지는 경우가 드물기 때문에 이러한 조치가 없는 단순한 구조가 바람직하다. 구조의 간결함뿐 아니라 분류 성능에 있어서도 동일 기저 네트워크를 갖는 DeepLab V3 (Chen et al., 2017)와 비교하여 유사 수준임을 확인하였다. 기저 네트워크로는 ResNeSt-50을 채택하였으며 이는 ResNet에 Split-Attention 블록을 가미하여 서로 다른 특징맵 그룹의 처리결과를 융합하여 성능향상을 도모한 네트워크이다(Zhang et al., 2022).

Figure 9. The structure of deconvolution-based simple model.

3.3. 성능 지표

학습된 모델의 성능은 각 관심 시설의 정답지(Ground Truth, GT) 면적과 모델에 의하여 해당 시설로 추론된 면적으로부터 Intersection over Union (IOU)을 산출하고, 모든 시설에 대한 평균(mean IOU, mIOU)을 취하여 측정한다. 관심 시설의 면적은 전체 영상 면적의 3% 미만이므로 전체 픽셀에 대한 픽셀 정확도(Accuracy)는 항상 높은 값이 되어 변별력이 거의 없다. 마찬가지로 배경에 대한 IOU 또한 항상 높은 값을 갖기 때문에 평균을 취했을 때 성능 지표의 변별력을 떨어뜨린다. 결과적으로 관심 시설의 미탐지와 오탐지를 효과적으로 반영한 배경을 제외한 mIOU를 학습된 모델의 정량적인 성능지표로 간주하며 이는 식(1)과 같이 산출된다. 단, 학습 과정 중에 최적 에포크를 선정하기 위한mIOU산출시에만 배경 IOU를 포함하였다. 각 클래스에 대한 IOU는 confusion matrix를 구하고 식(1)을 적용하여 직접 산출할 수도 있고 식(2)와 같이 재현율(Recall)과 정밀도(Precision)를 구한 후 간접적으로 산출할 수도 있다.

IOUi=Area of TPiArea of GTi+Area of FPi,mIOU=13 i=1 3IOUi

여기서 i가 1은 축사, 2는 공장, 3은 태양광패널을 나타낸다. TP는 참양성(true positive), FP는 거짓 양성(false positive)을 의미한다.

IOUi=1recalli1+precision11

3.4. 중복 모델 및 개선 모델 학습

동일한 패치 영상과 라벨 자료에 대해 20개의 서로 다른 학습 및 검증 조합을 생성하여 20 개의 중복 모델을 학습하였다. 각각의 조합은 70%의 학습용 자료와 30%의 검증용 자료로 이루어진다. 이 때 하나의 패치 영상이 모든 조합에서 가급적 균등하게 검증 자료로 사용될 수 있도록 조정하여 하나의 패치 영상이 평균 6회씩 검증으로 사용되도록 하였다. 이렇게 학습된 중복 모델은 유사한 분류 성능을 갖지만 동일한 입력 영상에 대해 서로 다른 추론 결과를 생성한다. 어떤 입력 영상에 대해 이를 학습하지 않은 약 6개의 중복 모델의 추론 결과를 합성하면 집단 지성에 의해 보다 보편적인 분석 결과를 기대할 수 있다. 이러한 모델 중복성에 의한 과적합 완화 방법은 랜덤포레스트 분류기에서 여러 중복 트리에 의한 결과를 합산하고 out of bag 샘플에 대한 성능을 평가하는 과정과 유사하다(Breiman, 2001). 본 연구에서는 도출된 중복 모델을 이용하여 융합된 추론 결과를 단일 모델의 추론 결과와 비교하였다. 다만 상당한 성능 개선을 감안하더라도 추론 시간이 약 6배 정도 길어지므로 처리 장치의 성능과 응용의 긴급성 등 상황에 따라 현실적인 적용이 어려울 수 있다.

하나의 입력 영상에 대해 중복 모델의 추론 결과가 대체로 GT와 동일한 경우가 있고 반대로 대체로 GT와 상반된 결과를 나타낼 수 있다. 후자의 경우 학습 자료에 내재된 모순이 있거나 현 분류기로는 추론이 불가능한 이른바 혼란스러운 영역(confusing area)으로 정의할 수 있다. 또한 가장 큰 출력 값과 두 번째로 큰 출력 값 사이에 큰 차이가 없는 경우 의사 결정이 불분명한 것이며 이 경우도 혼란스러운 영역에 포함시킬 수 있다. 어떤 패치영상의 특정 픽셀에 대한 m번째 모델의 클래스 i에 대한 출력 값을 sm(i)라 하고 이를 모든 모델에 대해 적산한 출력 값을 S(i)= m=1Msm(i)이라 했을 때, 가장 값이 큰 클래스의 인덱스를 I1st, 두 번째로 큰 클래스의 인덱스를 I2nd 그리고 GT의 인덱스를 IGT라 한다면 의사 결정의 확고함 정도(consensus level, C)를 식(3)과 같이 나타내었다.

C=sign×2S(I1st)S(I1st)+S(I2nd)1,where sign=+1 if I1st==IGTelse1

C 값은 추론이 적중했을 경우 양수, 틀렸을 경우 음수를 갖게 된다. 또한 C의 절대값은 S(I1st) 이외의 값이 0일 경우 1.0을 갖고 S(I1st)가 S(I2nd)와 대등할 경우 0.0에 가까운 값을 갖게 된다. 본 연구에서는 C값이 음수 일 경우 집단 추론이 틀렸고 0.09 미만일 경우 의사 결정이 불분명한 것으로 간주하여 GT에서의 혼란스러운 영역 마스크로 지정하였다.

모델 학습 과정에서는 출력 레이어에서의 L2 loss를 최소화하도록 최적화하여 반복적인 파라미터(parameter) 수정이 이루어지는데 중복 모델에 의해 혼란스러운 영역으로 지정된 영역을 loss 산출에서 제외함으로써 과적합을 억제하는 효과를 기대할 수 있다. 왜냐하면이 영역은 GT가 부정확하거나 현 분류기가 이해할 수 없는 영역이기 때문에 오히려 분류기의 판단을 혼란스럽게 만들기 때문이다. 본 연구에서는 혼란스러운 영역을 제외한 GT를 이용해 학습한 모델을 개선 모델로 정의하고 그 추론 성능을 기존 모델과 비교하고 개선 사례를 분석하였다.

4. 연구 결과

4.1. DeepLab V3와 역합성곱 기반 단순 네트워크의 비교

인텔사의 Xeon Gold 6234 CPU와 128GB RAM이 탑재된 컴퓨터에서 NVidia사의 RTX8000 GPU를 이용하여 DeepLab V3와 단순 네트워크를 학습하여 비교하였으며 이들의 기저 네트워크는 ResNeSt-50으로 동일하다. 분류 성능 비교에 앞서 학습 가능한 파라미터 수와 에포크 당 학습 시간을 Table 3에서 비교하였는데 학습 시간 자체는 유사하지만 DeepLab의 경우 동기화된 배치 정규화(Ioffe and Szegedy, 2015)를 통해 GPU 2개를 동시에 사용했기 때문에 GPU 1개당 학습시간으로 비교하면 약 2배의 시간이 걸린 셈이다.

Table 3 . Generation of random parameters of geometric transformation.

NetworkDeepLab V3Deconvolution-based simple network
Number of learnable parameters43,921,54438,020,740
Elapsed time to train an epoch (in minutes)62.764.6
Number of GPUs used for training21


다음으로 학습 진행에 따른 검증 성능의 추이를 Fig. 10에 나타냈다. 성능 지표인 배경을 제외한mIOU에 대해DeepLab은 74.9%, 단순 네트워크는 76.6%를 기록하였으며 둘 다 약 60 에포크(epoch) 전후에서 수렴하였다. 두 심층신경망은 학습 시간에서는 큰 차이를 보인 반면 분류 성능에 있어서는 단순 네트워크의 mIOU가 1.7% 높았으나 그 차이가 크지 않음을 알 수 있다. Fig. 11에서 검증 데이터에 대한 입력영상과 GT 그리고 각 네트워크의 추론 결과 사례를 비교하였다. 전반적으로 DeepLab은 시설 윤곽에 작은 왜곡이 나타나는 편이며 태양광 패널과 같이 폭이 좁은 시설에서 불안한 탐지 성능을 보였다. 다만 두 네트워크의 검증 성능은 유사하며 상대적으로 짧은 학습시간, 단조로운 네트워크 구조에 따른 과적합 완화 가능성을 감안하여 단순 네트워크가 본 연구에서는 합리적인 선택임을 확인하였다.

Figure 10. Comparison of training metrics for two deep neural networks.

Figure 11. Comparison of inference results of two deep neural networks (green: barns, purple: factories, and cyan: solar panels). (a) Input image. (b) GT. (c) DeepLab V3. (d) Simple network.

4.2. 단일 모델 학습 결과

일반적으로 심층신경망의 학습 결과는 초기치 설정 등의 랜덤 요소에 의해 학습할 때마다 서로 다른 성능을 보인다. 본 연구에서는 20개의 중복 모델을 학습하고 모든 학습 결과에 대한 통계를 구하여 보다 정확한 검증 성능을 측정하였다. Table 4에 검증 자료에 대해서 측정된 성능을 나타내었다. 공장 클래스의 IOU가 0.807로 가장 높았으며 태양광 패널의 IOU가 0.714로 가장 낮았다. 배경을 제외한 클래스의 mIOU는 0.767이었다.

Table 4 . Performance of a single model on validation sets.

ClassRecallPrecisionIOU
Background0.9890.9870.976
Barn0.8690.8820.779
Factory0.8870.9000.807
Solar panel0.8380.8280.714
mIOU w/o BG0.767

w/o BG: without background..



4.3. 중복 모델의 추론 결과를 융합한 결과

하나의 검증 영상에 대해 이를 학습하지 않은 M개의 중복모델 중 m번째 모델의 클래스 i에 대한 출력 값을 sm(i) 라고 했을 때 중복 모델에 의한 추정 클래스는 식(4)와 같이 결정된다.

x=argmaxi m=1Msm(i)

여기서 i가 1은 축사, 2는 공장, 3은 태양광패널을 나타낸다.

검증 자료에 대한 중복 모델의 융합 결과의 성능과 단일 모델과의 비교 결과를 Table 5에 나타내었다. 전체 성능에 있어서 약 3.4%의 개선이 있었고 특히 성능이 가장 낮았던 태양광 패널에 대해서는 4.3% 개선되었다. 이러한 개선 효과는 서로 다른 학습자료로 학습 된 중복 모델들의 추정 결과에 의한 집단 지성이 발휘 된 것으로 추정할 수 있다. 다만 중복 모델의 추론결과 융합은 전반적인 성능 개선 효과에도 불구하고 처리 시간이 큰 폭으로 증가하는 문제점이 있다.

Table 5 . Performance of redundant models and comparison with single model.

ClassSingle modelRedundant modelDifference
Background0.9760.980+0.4%
Barn0.7790.810+3.1%
Factory0.8070.835+2.8%
Solar panel0.7140.757+4.3%
mIOU w/o BG0.7670.801+3.4%


4.4. 혼란스러운 영역의 선정 및 개선 모델 학습

중복모델의 추론 결과를 바탕으로 식(3)의 consensus level 검사에 따라 도출된 혼란스러운 영역 여부를 GT 자료의 모든 픽셀 위치에 대해 비트 정보를 추가하여 기록하였으며, 하나의 검증 패치 사례를 Fig. 12에 나타내었다. Fig. 12(a)는 입력 영상이고 Fig. 12(e)는 이에 대한 6개의 중복 모델의 추론 결과이며 이들을 통해 생성된 융합 결과가 Fig. 12(d)이다. Fig. 12(c)는 Fig.12(b)에 나타낸 GT와 융합 결과의 비교를 통한 consensus level 검사에 의하여 선정된 혼란스러운 영역을 나타낸다. 전반적으로 시설의 경계가 혼란스러운 영역으로 선정된 이유는 휴먼에러에 의한 정답지 작성의 편차가 나타난 것으로 판단되며 좌상단 푸른 건물의 그림자 영역과 우상단 주황색 건물의 흰색 공터 부분에 대해서는 GT에 내재된 모순 혹은 분류기에 의한 판별이 불가능한 영역으로 추정된다.

Figure 12. Confusing mask generated from merged results from redundant models. (a) Input patch. (b) GT. (c) Confusing mask. (d) Merged results of redundant models. (e) Inference results from redundant models.

다음으로 모델 파라미터 최적화를 위한 손실(loss) 산출 시 혼란스러운 영역을 배제하여 개선 모델을 학습하였으며 이는 명백한 영역에서만 학습을 진행하고 애매한 영역의 추론은 모델의 판단에 맡기는 취지이다. Table 6에서 혼란스럽지 않은 영역에서의 성능을 비교하였다. 전반인 분류 성능이 개선되었으며 태양광 유형은 3.7% 개선되었다. Table 7에는 혼란스러운 영역에서의 성능을 비교하였다. 이 영역에서는 개선 모델의 학습 파라미터 갱신이 일어나지 않으므로 대체로 성능이 저하되지만, 두 영역 모두에서의 성능은 배경을 배제한 mIOU가 0.767에서 0.781로 1.4% 개선되었다. 이는 중복 모델의 융합 대비 작은 양이지만 동일 처리 시간으로 얻어지는 개선 효과이다.

Table 6 . Comparison of the single model and the improved model for the non-confusing area.

ClassSingle modelImproved modelDifference
Background0.9930.997+0.4%
Barn0.9250.940+1.5%
Factory0.9370.948+1.1%
Solar panel0.8960.933+3.7%
mIOU w/o BG0.9190.940+2.1%


Table 7 . Comparison of the single model and the improved model for the confusing area.

ClassSingle modelImproved modelDifference
Background0.1640.172+0.8%
Barn0.1410.122-1.9%
Factory0.1410.116-2.5%
Solar panel0.1760.195+1.9%
mIOU w/o BG0.1530.144-0.9%


또한 GT에는 없는 크기가 매우 작은 탐지 영역은 추론 결과의 불안정성을 나타내는데 단일 모델은 이러한 탐지 영역의 비율이 15.9%인 반면 개선 모델에서는 11.0%로 감소하였다. 이는 전반적인 추론품질의 개선으로 간주할 수 있고, 아래 Fig. 13에 나타낸 학습에는 사용되지 않은 2021년도 신규 영상에서의 추론 결과의 품질 비교를 통해 개선 효과를 확인할 수 있다. Fig. 13(b)에 나타낸 GT는 입력영상의 이전 년도의 자료이므로 정확한 정답이 아닌 참고용 자료이다.

Figure 13. Comparison of the quality of the single model and the improved model (green: barns, purple: factories, and cyan: solar panels). (a) Input. (b) 2020 GT. (c) Single model results. (d) Improved model results.

5. 결론

본 연구에서는 농촌재구조화 과정에서 요구되는 모니터링 수단으로서 KOMPSAT 모자이크 영상 내에 존재하는 농촌 시설의 자동 분할에 대한 연구를 수행하였으며 이를 위한 학습자료 구축 및 딥러닝 기반 모델의 적용 결과를 분석하였다. 학습자료는 4개의 도시에 대해 2019년, 2020년에 제작된 KOMPSAT 모자이크 영상과 이에 대한 지상 참조자료를 바탕으로 작성된 라벨자료로 구성되며, 모델 파라미터 학습을 위하여 기하학적인 변형과 색상 변화 적용을 통해 샘플을 증강하였다. 분할 대상인 축사와 공장은 일반 건물과 육안으로 식별이 어려운 경우가 빈번하며 이러한 GT에 내재하는 모순으로 인한 과적합을 완화하기 위하여 상대적으로 복잡도가 낮은 역합성곱기반 단순네트워크를 채택하였고 상대적으로 높은 복잡도의DeepLab V3 모델과의 비교를 통해 성능 차이가 크지 않음을 확인하였다. 또한 학습 및 검증 조합을 달리하여 학습된 20개의 중복 모델의 추론 결과를 합성하여 상당한 성능 개선 효과를 확인하였다. 비록 몇 배의 처리시간이 소요되어 신속성이 요구되는 응용에는 적용이 어려우나 학습 자료 자동 정제 등 보다 높은 신뢰성이 우선되는 상황에서는 유용한 대응 방법일 수 있다.

여러 중복모델의 융합 추론의 결과가 틀렸거나 혹은 consensus level이 낮은 부분은 애초에 분류가 불가능한 모순 영역이거나 현 모델로는 분류가 어려운 혼라스러운 영역으로 정의하였으며 실제로 이러한 영역은 라벨 작성자의 휴먼에러가 빈번한 경계 영역이나 육안으로도 식별이 어려운 영역임을 확인하였다. 이러한 혼란스러운 영역을 모델 파라미터 최적화 과정에서 제외하여 학습된 개선 모델은 기존의 단일 모델 대비 보다 나은 검증 성능을 보였고 특히 혼란스러운 영역이 아닌 일반 영역에서는 뚜렷한 개선 효과를 보였다. 다만 혼란스러운 영역에서는 오히려 성능이 낮아지는 현상이 나타났는데 이는 배경과 대상 건물 간에 외관상 차이가 거의 없는 경우인 것으로 추정된다. 그러므로 혼란스러운 영역에 있어서 휴먼 에러에 대한 개선은 기대할 수 있으나 근본적인 모순에 대한 개선에 대해서는 추가적인 연구가 필요할 것으로 판단된다. 그럼에도 지나치게 작은 넓이의 탐지 영역의 비율이 낮아져 보다 안정적인 추론이 이루어졌음을 확인하였고 학습에 사용되지 않은 2021년도 영상에 대한 추론 결과를 비교하여 이러한 효과를 정성적으로 확인하였다.

학습기반 분류 모델의 궁극적인 성능 개선에는 지속적인 학습자료 보강이 반드시 필요하지만 본 연구에서는 학습자료가 이미 주어진 상황에서 GT에 모순이나 오류가 내재된 경우에 안정적인 추론 성능을 위한 두 가지 개선 방법을 제안하였으며 이는 특정 딥러닝 모델에 국한되지 않고 적용이 가능하다. 다만 학습자료가 지속적으로 추가되는 상황이라면 이에 따른 중복 모델 파라미터의 갱신, 혼란스러운 영역과 개선 모델 파라미터의 변화 등도 고려되어야 한다. 이에 향후에는 지속적인 성능 개선을 위한 프로세스 구축과 더불어 영상분류, 객체 탐지에 대한 확대 적용 방법에 대해 연구할 예정이다.

사사

본 연구는 한국항공우주연구원 ‘정부 위성정보활용협의체 지원(FR24J00)’과제의 지원을 받아 수행되었습니다.

Conflict of Interest

No potential conflict of interest relevant to this article was reported.

Fig 1.

Figure 1.Actual appearance of rural facilities. (a) Pig barn. (b) Fertilizer plant. (c) Solar panels.
Korean Journal of Remote Sensing 2024; 40: 1397-1408https://doi.org/10.7780/kjrs.2024.40.6.3.2

Fig 2.

Figure 2.The mosaic images including the target cities.
Korean Journal of Remote Sensing 2024; 40: 1397-1408https://doi.org/10.7780/kjrs.2024.40.6.3.2

Fig 3.

Figure 3.Data processing flow of this study.
Korean Journal of Remote Sensing 2024; 40: 1397-1408https://doi.org/10.7780/kjrs.2024.40.6.3.2

Fig 4.

Figure 4.Splitting mosaic scene images into 270 tile images.
Korean Journal of Remote Sensing 2024; 40: 1397-1408https://doi.org/10.7780/kjrs.2024.40.6.3.2

Fig 5.

Figure 5.An example of annotation. (a) Tile image. (b) Labels (green: barns, purple: factories, and cyan: solar panels).
Korean Journal of Remote Sensing 2024; 40: 1397-1408https://doi.org/10.7780/kjrs.2024.40.6.3.2

Fig 6.

Figure 6.Nine patch images extracted around four facilities.
Korean Journal of Remote Sensing 2024; 40: 1397-1408https://doi.org/10.7780/kjrs.2024.40.6.3.2

Fig 7.

Figure 7.Color distribution of rural facilities in 2019 and 2020.
Korean Journal of Remote Sensing 2024; 40: 1397-1408https://doi.org/10.7780/kjrs.2024.40.6.3.2

Fig 8.

Figure 8.Four examples of color augmentation. Examples are listed in (a–d), with the left part being the original image and the right part being the augmented image.
Korean Journal of Remote Sensing 2024; 40: 1397-1408https://doi.org/10.7780/kjrs.2024.40.6.3.2

Fig 9.

Figure 9.The structure of deconvolution-based simple model.
Korean Journal of Remote Sensing 2024; 40: 1397-1408https://doi.org/10.7780/kjrs.2024.40.6.3.2

Fig 10.

Figure 10.Comparison of training metrics for two deep neural networks.
Korean Journal of Remote Sensing 2024; 40: 1397-1408https://doi.org/10.7780/kjrs.2024.40.6.3.2

Fig 11.

Figure 11.Comparison of inference results of two deep neural networks (green: barns, purple: factories, and cyan: solar panels). (a) Input image. (b) GT. (c) DeepLab V3. (d) Simple network.
Korean Journal of Remote Sensing 2024; 40: 1397-1408https://doi.org/10.7780/kjrs.2024.40.6.3.2

Fig 12.

Figure 12.Confusing mask generated from merged results from redundant models. (a) Input patch. (b) GT. (c) Confusing mask. (d) Merged results of redundant models. (e) Inference results from redundant models.
Korean Journal of Remote Sensing 2024; 40: 1397-1408https://doi.org/10.7780/kjrs.2024.40.6.3.2

Fig 13.

Figure 13.Comparison of the quality of the single model and the improved model (green: barns, purple: factories, and cyan: solar panels). (a) Input. (b) 2020 GT. (c) Single model results. (d) Improved model results.
Korean Journal of Remote Sensing 2024; 40: 1397-1408https://doi.org/10.7780/kjrs.2024.40.6.3.2

Table 1 . The number of facilities in the dataset for this study.

Rural facilityArea
GeochangNajuSeosanAnsungTotal
Barn1,9862,8352,5082,88110,210
Factory1655744362,0213,196
Solar panel202314128155799

Table 2 . Generation of random parameters of geometric transformation.

Transformation typeRotation (degree)Center offset (pixel)Scaling factor
DistributionU (0, 360)U (0, 120)1.0+N (0.0, 0.05)

U: uniform distribution of given range, N: normal distribution of given mean and deviation..


Table 3 . Generation of random parameters of geometric transformation.

NetworkDeepLab V3Deconvolution-based simple network
Number of learnable parameters43,921,54438,020,740
Elapsed time to train an epoch (in minutes)62.764.6
Number of GPUs used for training21

Table 4 . Performance of a single model on validation sets.

ClassRecallPrecisionIOU
Background0.9890.9870.976
Barn0.8690.8820.779
Factory0.8870.9000.807
Solar panel0.8380.8280.714
mIOU w/o BG0.767

w/o BG: without background..


Table 5 . Performance of redundant models and comparison with single model.

ClassSingle modelRedundant modelDifference
Background0.9760.980+0.4%
Barn0.7790.810+3.1%
Factory0.8070.835+2.8%
Solar panel0.7140.757+4.3%
mIOU w/o BG0.7670.801+3.4%

Table 6 . Comparison of the single model and the improved model for the non-confusing area.

ClassSingle modelImproved modelDifference
Background0.9930.997+0.4%
Barn0.9250.940+1.5%
Factory0.9370.948+1.1%
Solar panel0.8960.933+3.7%
mIOU w/o BG0.9190.940+2.1%

Table 7 . Comparison of the single model and the improved model for the confusing area.

ClassSingle modelImproved modelDifference
Background0.1640.172+0.8%
Barn0.1410.122-1.9%
Factory0.1410.116-2.5%
Solar panel0.1760.195+1.9%
mIOU w/o BG0.1530.144-0.9%

References

  1. Baek, W. K., Lee, M. J., and Jung, H. S., 2022. The performance improvement of U-Net model for landcover semantic segmentation through data augmentation. Korean Journal of Remote Sensing, 38(6-2), 1663-1676. https://doi.org/10.7780/kjrs.2022.38.6.2.8
  2. Breiman, L., 2001. Random forests. Machine Learning, 45, 5-32. http://doi.org/10.1023/A:1010933404324
  3. Chae, H., Rhim, H., Lee, J., and Choi, J., 2022. Exploratory study of the applicability of Kompsat 3/3A satellite pan-sharpened imagery using semantic segmentation model. Korean Journal of Remote Sensing, 38(6-4), 1889-1900. https://doi.org/10.7780/kjrs.2022.38.6.4.3
  4. Chen, L. C., Papandreou, G., Schroff, F., and Adam, H., 2017. Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587. https://doi.org/10.48550/arXiv.1706.05587
  5. Demir, I., Koperski, K., Lindenbaum, D., Pang, G., Huang, J., and Basu, S., et al, 2018. Deepglobe 2018: A challenge to parse the Earth through satellite images. arXiv preprint arXiv:1805.06561. https://doi.org/10.48550/arXiv.1805.06561
  6. Feng, W., Sui, H., Huang, W., Xu, C., and An, K., 2019. Water body extraction from very high-resolution remote sensing imagery using deep U-Net and a superpixel-based conditional random field model. IEEE Geoscience and Remote Sensing Letters, 16(4), 618-622. https://doi.org/10.1109/LGRS.2018.2879492
  7. Ioffe, S., and Szegedy, C., 2015. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167. https://doi.org/10.48550/arXiv.1502.03167
  8. Lee, S. H., and Lee, M. J., 2020. A study on deep learning optimization by land cover classification item using satellite imagery. Korean Journal of Remote Sensing, 36(6-2), 1591-1604. https://doi.org/10.7780/kjrs.2020.36.6.2.9
  9. Lee, Y. S., Park, S. H., Jung, H. S., and Baek, W. K., 2018. Classification of natural and artificial forests from KOMPSAT-3/3A/5 images using artificial neural network. Korean Journal of Remote Sensing, 37(6-3), 1399-1414. https://doi.org/10.7780/kjrs.2018.34.6.3.7
  10. Li, Y., Hou, Q., Zheng, Z., Cheng, M. M., Yang, J., and Li, X., 2023. Large selective kernel network for remote sensing object detection. arXiv preprint arXiv:2303.09030. https://doi.org/10.48550/arXiv.2303.09030
  11. Maggiori, E., Tarabalka, Y., Charpiat, G., and Alliez, P., 2017. Can semantic labeling methods generalize to any city? The inria aerial image labeling benchmark. In Proceedings of the 2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS), Fort Worth, TX, USA, July 23-28, pp. 3226-3229. https://doi.org/10.1109/IGARSS.2017.8127684
  12. Mnih, V., and Hinton, G. E., 2010. Learning to detect roads in highresolution aerial images. In: Daniilidis, K., Maragos, P., Paragios, N., (eds.), Computer vision - ECCV 2010, Springer, pp. 210-223. https://doi.org/10.1007/978-3-642-15567-3_16
  13. Moon, J., and Lee, K. J., 2019. A comparative study on the possibility of land cover classification of the mosaic images on the Korean Peninsula. Korean Journal of Remote Sensing, 35(6-4), 1319-1326. https://doi.org/10.7780/kjrs.2019.35.6.4.2
  14. Pan, Z., Xu, J., Guo, Y., Hu, Y., and Wang, G., 2020. Deep learning segmentation and classification for urban village using a Worldview satellite image based on U-Net. Remote Sensing, 12(10), 1574. https://doi.org/10.3390/rs12101574
  15. Park, C., Jung, H., Lee, W., Lee, K., Oh, K., Chang, J., and Lee, M., 2023. Classification of industrial parks and quarries using U-Net from KOMPSAT-3/3A imagery. Korean Journal of Remote Sensing, 39(6-3), 1679-1692. https://doi.org/10.7780/kjrs.2023.39.6.3.2
  16. Ulmas, P., and Liiv, I., 2020. Segmentation of satellite imagery using UNet models for land cover classification. arXiv preprint arXiv: 2003.02899. https://doi.org/10.48550/arXiv.2003.02899
  17. Vezhnevets, A., and Barinova, O., 2007. Avoiding boosting overfitting by removing confusing samples. In: Kok, J. N., Koronacki, J., Mantaras, R. L. D., Matwin, S., Mladenič, D., Skowron, A., (eds.), Machine learning: ECML 2007, Springer, pp. 430-441. https://doi.org/10.1007/978-3-540-74958-5_40
  18. Wang, L., Li, R., Wang, D., Duan, C., Wang, T., and Meng, X., 2021. Transformer meets convolution: A bilateral awareness network for semantic segmentation of very fine resolution urban scene images. arXiv preprint arXiv:2106.12413. https://doi.org/10.48550/arXiv.2106.12413
  19. Xiao, B., Wu, H., and Wei, Y., 2018. Simple baselines for human pose estimation and tracking. arXiv preprint arXiv:1804.06208. https://doi.org/10.48550/arXiv.1804.06208
  20. Youn, H., and Jeong, J., 2020. KOMPSAT-3A urban classification using machine learning algorithm - Focusing on Yangjae in Seoul -. Korean Journal of Remote Sensing, 36(6-2), 1567-1577. https://doi.org/10.7780/kjrs.2020.36.6.2.7
  21. Zhang, H., Wu, C., Zhang, Z., Zhu, Y., Lin, H., and Zhang, Z., et al, 2022. Resnest: Split-attention networks. arXiv preprint arXiv.2004.08955. https://doi.org/10.48550/arXiv.2004.08955
  22. Zhang, X., Du, S., Wang, Q., and Zhou, W., 2018. Multiscale geoscene segmentation for extracting urban functional zones from VHR satellite images. Remote Sensing, 10(2), 281. https://doi.org/10.3390/rs10020281
KSRS
December 2024 Vol. 40, No.6, pp. 1005-989

Metrics

Share

  • line

Related Articles

Korean Journal of Remote Sensing