Korean J. Remote Sens. 2024; 40(6): 1421-1433
Published online: December 31, 2024
https://doi.org/10.7780/kjrs.2024.40.6.3.4
© Korean Society of Remote Sensing
주진기1, 안지승2, 이기웅2, 최정렬3, 장재영4, 이광재4*
1(주)아이옵스 연구원
2(주)아이옵스 주임연구원
3(주)아이옵스 기술이사
4한국항공우주연구원 위성활용부 책임연구원
Correspondence to : Kwang-Jae Lee
E-mail: kjlee@kari.re.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Advances in the aerospace industry have driven growing research into the use of artificial intelligence for analyzing objects of interest in satellite imagery. Unlike typical 8-bit RGB camera images, however, satellite imagery often contains 16-bit pixel values, which can result in outliers that darken the image. This issue leads to difficulty in object identification and negatively impacts analysis performance. To address this issue, various image enhancement techniques have been proposed, but the effectiveness of each technique depends on the specifics of each satellite and the task to be performed. To address this issue, various image enhancement techniques have been proposed. However, since each satellite has unique characteristics and the effectiveness of each technique varies depending on the specific task, it is necessary to carefully evaluate which technique is most suitable. This research analyzed which of the five image enhancement techniques is most suitable for semantic segmentation tasks using the dataset from the KOMPSAT-3A satellite, which is widely used in South Korea. Experimental results using five semantic segmentation models indicated that percentile stretching performed well in three models, suggesting it as the most universally applicable method. In addition, for buildings and roads, which are important objects in urban analysis, recursive separated and weighted histogram equalization (RSWHE) and percentile stretching were found to be effective.
Keywords KOMPSAT, Image enhancement method, Semantic segmentation
Semantic segmentation은 자율 주행(Feng et al., 2020; Kim et al., 2023; Siam et al., 2017), 의료 영상 분석(Havaei et al., 2016; Hesamian et al., 2019) 등과 같은 다양한 딥 러닝 기반의 응용 프로그램의 핵심 기술이다. 영상의 각 픽셀을 분류하는 픽셀 별 분류 문제로 각 픽셀은 특정 클래스 또는 객체에 해당한다. 최근 몇 년 동안 많은 양의 영상 데이터(Everingham et al., 2010; Cordts et al., 2016; Zhou et al., 2019)를 기반으로 다양한 semantic segmentation 방법론들(Cheng et al., 2022; Chen et al., 2018; Ronneberger et al., 2015; Xiao et al., 2018; Xie et al., 2021)이 제안되어 놀라운 발전을 이루었다. 제안된 방법들은 식별력이 높은 객체에 대해서는 보편적으로 우수한 결과를 제공하지만 객체를 구별하기 힘든 경우 성능이 떨어진다.
관측 위성 데이터의 수신 빈도가 증가하고 위성 센서 성능 개선을 통해 공간 해상도가 향상되면서, 대용량의 다양한 위성 데이터를 수집할 수 있게 되었다. 이에 따라 인공지능을 연계한 다양한 연구와 서비스(Eom et al., 2023; Hur et al., 2024; Lee et al., 2022; Noh et al., 2022; Ye, 2023)도 활발히 진행되고 있다. 특히, 관심있는 객체 분석을 위해 semantic segmentation 모델을 활용하는 다양한 방법론들(Gong et al., 2023; Jeong et al., 2023; Park et al., 2023)이 제안되었다. 그러나 위성 영상은 일반적인 RGB 카메라와 달리 16bit 크기의 픽셀 값을 주로 가지며, 이로 인해 픽셀 값의 범위가 넓어져 이상치 값이 매우 커질 수 있다. 큰 이상치 값은 Fig. 1(a)와 같이 영상을 매우 어둡게 만드는 문제를 발생시킨다. 해당 영상을 학습한 semantic segmentation 모델은 객체를 구별하기 위한 특징(feature)을 효과적으로 학습하기 어려워, 기대하는 결과에 비해 낮은 성능을 달성한다. 또한, 사람이 영상에서 객체를 구별하기 어렵기 때문에 영상의 활용도가 떨어진다. 이러한 문제를 해결하는 가장 간단한 방법은 이상치 값이 큰 영상을 제거하는 것이지만, 넓은 지역을 촬영하는 위성 영상의 특성상 많은 데이터가 수집되기 때문에 모든 영상을 검토하는 작업은 매우 노동집약적이고 비효율적이다.
따라서 데이터를 보다 효과적으로 처리하기 위해 다양한 영상 향상 기법을 활용한다(Chinaramanamma and Anuradh, 2024 ; Thepade and Pardhi, 2022). 이 중 널리 사용되는 두 가지 기법은 대비 스트레칭(contrast stretching)과 히스토그램 평활화(histogramequalization)이다. 대비 스트레칭은 영상의 픽셀 값 분포를 확장하여 대비를 개선하고 영상을 선명하게 만드는 기법으로, Fig. 1(b)에서 볼 수 있듯 원본 영상보다 더 밝아지고 분석에 필요한 객체가 뚜렷하게 부각된다. 히스토그램 평활화는 영상의 히스토그램을 재분포시켜 밝기 값을 고르게 분포하도록 만드는 기법이다. 이 기법은 영상의 시각적 품질을 향상시키고, 어두운 부분이나 밝은 부분의 세부 정보를 더 잘 드러내는데 유용하다. 그러나 영상의 노이즈를 강조하거나 Fig. 1(c)와 같이 과도한 변형을 초래할 수 있는 단점이 있다. 이러한 문제를 보완하기 위해 다양한 개선 기법들이 제안되었다(Kim and Chung, 2009; Wang et al., 1999; Wang and Ward, 2007; Zuiderveld, 1994). 그러나 기존 연구인 Chinaramanamma and Anuradh (2024)과 Thepade and Pardhi (2022)에서는 영상 향상 기법들을 활용하여 영상 품질 향상 결과만 제시했으며, 개선된 영상을 활용한 다운스트림 작업(downstreamtask)의 성능 결과는 제공하지 않았다. 그러나 작업의 특성에 따라 효과적인 영상 향상 기법이 다를 수 있으므로, 다운스트림 작업에 적합한 영상 향상 기법을 식별하는 것이 중요하다. 또한, 위성 영상은 위성의 종류에 따라 탑재된 카메라, 센서, 고도 등의 차이로 인해 품질과 특성이 다양하다. 각 영상 향상 기법 고유한 특징을 가지며, 수행하고자 하는 작업 및 영상이 수집된 위성에 따라 효과가 달라진다. 따라서 특정 위성 영상에 적합한 최적의 기법을 작업에 맞춰 검토할 필요가 있다.
이를 위해 본 연구에서는 위성 영상 활용 분야에서 널리 사용되는 KOMPSAT-3A 위성 데이터셋과 객체를 효과적으로 분석할 수 있는 semantic segmentation 작업을 기반으로 5가지 영상 향상 기법(백분위수 스트레칭; percentile stretching), contrast limited adaptive histogram equalization [CLAHE], dualistic sub-image histogram equalization [DSIHE], weighted thresholded histogram equalization [WTHE], recursive separated and weighted histogram equalization [RSWHE])을 비교 분석하였다. 각 기법의 효과를 평가하기 위해 5개의 semantic segmentation 모델(U-Net, DeepLabV3+, SegFormer, ConvNeXt [Liu et al., 2022], Mask2Former)을 활용하였으며, 이를 통해 다양한 실험 결과를 제공한다.
본 연구에서는KOMPSAT-3A위성 영상을 활용한 semantic segmentation 작업을 위해 효과적인 영상 향상 기법을 분석하고자 한다. 이를 위해 대비 스트레칭 기반의 백분위수 스트레칭과 히스토그램 평활화 기반의 CLAHE, DSIHE, WTHE, RSWHE 기법을 적용하였다.
Table 2와 Fig. 4에서 확인할 수 있듯이, CLAHE를 단독으로 적용했을 때는 백분위수 스트레칭과 함께 적용한 경우보다 성능이 저하되는 결과를 보였다. 또한, CLAHE만 적용한 영상 Fig. 2(b)와 백분위수 스트레칭과 CLAHE를 함께 적용한 영상 Fig. 2(c)의 영상 품질에서도 차이가 나타났다. 이는 위성 영상에서 발생하는 매우 큰 이상치 값이 히스토그램에 영향을 미쳐 히스토그램 평활화 기반 기법의 영상 향상 효과를 제한할 수 있음을 간접적으로 보여준다. 이러한 문제를 완화하기 위해 본 연구에서는 백분위수 스트레칭을 먼저 적용한 후 히스토그램 평활화 기반 기법들을 사용한다.
Table 2 Performance by semantic segmentation model for each image enhancement method on test datasets
Method | Semantic segmentation model (mIoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 73.58 | 76.82 | 79.44 | 81.05 | 80.93 |
PS | 75.00 | 79.93 | 79.64 | 81.13 | 81.35 |
CLAHE | 74.74 | 77.82 | 79.33 | 80.44 | 80.63 |
PS + CLAHE | 75.97 | 78.97 | 79.55 | 80.68 | 80.95 |
PS + DSIHE | 75.80 | 78.69 | 79.68 | 80.69 | 81.04 |
PS + RSWHE | 76.12 | 78.49 | 80.10 | 81.00 | 81.14 |
PS + WTHE | 75.46 | 79.10 | 79.81 | 80.96 | 81.08 |
PS: percentile stretching.
전체적인 연구 절차는 Fig. 3에서 확인할 수 있다. 연구에서 사용된 영상 향상 기법, semantic segmentation 모델 그리고 연구에 활용된 자료에 대한 자세한 내용은 2.2~2.4절에서 설명한다.
백분위수 스트레칭은 대비 스트레칭 기반의 방법 중 위성 영상 향상에 널리 사용되는 기법으로 영상의 픽셀 값 분포에서 특정 백분위수 범위에 해당하는 값들을 선택해 새로운 범위로 재조정한다.
식(1)은 백분위수 스트레칭의 과정을 나타낸다. 입력 영상의 픽셀 값 분포에서 하위와 상위 백분위에 해당하는 최소값(vmin), 최대값(vmax)을 계산한 뒤, 이를 기준으로 픽셀 값을 정규화한다. 이후, 정규화된 값을 새로운 범위로 변환하여 이미지의 대비를 향상시킨다. 이 과정은 어두운 영역을 더 밝게 하고, 밝은 영역을 더욱 강조함으로써 영상의 디테일과 시각적 품질을 개선한다. 본 연구에서는 픽셀 값 분포의 1%와 99%로 설정하여 사용한다. Fig. 2(a)는 백분위수 스트레칭이 적용된 영상을 나타낸다.
히스토그램 평활화는 히스토그램을 재분포하여 영상의 세부 정보를 강조하는데 효과적이지만, Fig. 1(c)와 같이 과도한 변형이 발생하면 분석 성능이 저하될 수 있다. 이러한 문제를 고려하여, 본 연구에서는 시각적으로 과도한 변화를 최소화하는 4가지 개선된 기법(CLAHE, DSIHE, WTHE, RSWHE)을 선정하여 분석에 활용하였다.
CLAHE는 기존 히스토그램 평활화 기법의 단점인 과도한 대비 증가 문제를 해결하기 위해 제안된 기법이다. 입력 영상을 일정 크기의 컨텍스트 영역으로 분리한 뒤, 각 영역의 히스트로그램을 계산한다.이 과정에서 히스토그램 값이 클리핑 한계를 초과하지 않도록 제한하며, 초과된 픽셀 수는 다른 그레이 레벨로 재분배한다.
각 컨텍스트 영역의 히스토그램은 식(2)로 계산된다. 여기서HCR(i)는 컨텍스트 영역 CR의 그레이 레벨 i에 대한 픽셀 강도(히스토그램 값)를 의미하며, NCL는 클리핑 한계, Nacp는 초과된 픽셀을 다른 그레이 레벨로 분배한 값을 나타낸다. 이렇게 계산된 히스토그램을 기반으로 히스토그램 평활화를 적용하고, 결과 픽셀 값은 매핑과 보간 과정을 통해 최종 출력 영상에 반영된다. 이 기법은 컨텍스트 영역별로 적응형 히스토그램 평활화를 수행하여 국소적인 대비를 향상시키며, 클리핑 한계를 통해 과도한 대비 증가를 방지하고 노이즈 증폭을 억제하면서도 효과적인 평활화를 구현한다. 본 연구에서는 컨텍스트 영역 크기를 256으로 설정하였다. Fig. 2(b)는 CLAHE를 단독으로 적용한 영상이고 Fig. 2(c)는 백분위수 스트레칭을 적용한 후 CLAHE를 적용한 영상을 나타낸다.
DSIHE는 픽셀 값 분포의 중간 값을 기준으로 두 서브 히스토그램으로 분할 후 각 서브 히스토그램에 평활화를 적용하는 기법이다. 원본 영상의 히스토그램을 분석하여 픽셀 값의 확률 밀도 함수를 기반으로 두 개의 서브 영상(XL, XU)으로 분할한다. 분할 기준은 확률 밀도 함수의 누적 분포 함수가 0.5에 도달하는 지점인 Xe이다.
최종 출력 영상의 픽셀 값 Y(i, j)는 위의 식(3)으로 계산된다. 여기서 CL과 CU는 각 서브 영상의 누적 분포 함수이다. 하위 서브 영상과 상위 서브 영상를 각각 히스토그램 평활화 변환으로 처리한 뒤, 결합하여 최종 영상을 생성한다. 해당 기법은 저조도 영상이나 명암 대비가 낮은 영상에 효과적이다. Fig. 2(d)는 백분위수 스트레칭을 적용한 후 DSIHE를 적용한 영상을 나타낸다.
WTHE는 히스토그램의 가중치와 임계 값을 사용하여 빠르게 영상의 대비를 향상시키는 기법이다. 영상의 대비를 향상시키기 위해 확률 밀도 함수 P(k)에 가중치와 임계값을 기반으로 수정한다. 여기서 k는 영상의 명암도를 의미한다. 이 과정에서 하한 임계값 Pl과 상한 임계값 Pu을 설정하여, P(k)를 변환한다. 변환된 확률 밀도 함수 P(k)는 다음과 같이 식(4)로 정의된다.
여기서 Ω(P(k))는 정규화된 멱법칙 함수로 가중치 지수 r을 사용하여 대비 향상의 정도를 조절한다. 이를 통해 변환된 확률 밀도 함수 Pwt(k)를 이용하여 히스토그램 평활화를 수행한다. 본 연구에서는 Pl을 0, Pu를 0.5, r을 0.5로 설정한다. Fig. 2(e)는 백분위수 스트레칭을 적용한 후WTHE를 적용한 영상을 나타낸다.
RSWHE는 입력 영상의 평균 명도 값을 보존하기 위하여, 입력 영상의 히스토그램을 영상의 평균 명도 값을 기준으로 c회 (c ≥ 1) 반복적으로 분할하는 것이다. 이때 분할 횟수에 따른 c에 따른 서브 히스토그램의 수는 2c이 된다. 예를 들어, c=2인 경우 [X0, XL–1]의 명암 값을 가지는 영상 X는 위 식에 의해 4개의 서브 이미지로 분할되고, 각 서브 이미지는 식(5)로 정의된다.
여기서 Xm, Xml, Xmu은 분할 기준 값을 의미하고 확률 밀도 함수 pX(x)를 기반으로 식(6)과 같이 계산된다.
이를 기반으로 각 영역에 대한 변환 함수는 식(7)과 같이 정의된다.
여기서 CNLL(x), CNLU(x), CNUL(x), CNUU(x)는 각 영역에 대한 누적 분포함수이다. 최종 결과 이미지 Y는 모든 영역에서 변환된 값을 결합하여 식(8)과 같이 만들어진다.
본 연구에서는 반복 회수 c를 2로 설정한다. Fig. 2(f)는 백분위수 스트레칭을 적용한 후 RSWHE를 적용한 영상을 나타낸다.
KOMPSAT-3A 위성 영상에서 영상 향상 기법의 효과를 확인하기 위 해 semantic segmentation 분야에서 전통적으로 많이 사용하는 모델(U-Net, DeepLabV3+)과 보다 최근에 제안되어 강력한 성능을 보이는 모델(SegFormer, ConvNeXt, Mask2Fomer)을 사용한다.
U-Net은 영상의 전반적인 컨텍스트 정보를 얻는 축소 경로(contracting path)와 위치 정보를 얻는 확장 경로(expansive path)가 대칭 형태로 구성되어 있는 인코더-디코더(encoder-decoder) 기반 모델이다. 축소 경로에서 나온 고해상도 특징을 확장 경로의 각 단계에 연결하는 skip connection을 사용하여 전체적인 컨텍스트와 위치 정보를 모두 고려하여 결과를 제공한다. 해당 모델은 위성 영상 분석에 가장 널리 사용된다.
DeepLabV3+는 여러 크기의 컨텍스트 정보를 활용하는 atrous spatial pyramid pooling 모듈을 사용하는 구조와 공간 정보를 점진적으로 복구하여 더 선명한 객체 경계를 포착할 수 있는 인코더-디코더 구조의 장점들을 결합한 모델이다. 또한, 기존 공간 차원과 채널 차원을 동시에 처리하는 기존 convolution 대신 채널 축으로 나누어 각각의 특징 맵에 1 채널 convolution을 적용하는 depthwise separable convolution을 사용하여 파라미터 수와 연산량을 상당히 줄여 더 빠른 결과를 생성한다. 해당 모델은 semantic segmentation 분야에서 널리 사용되는 모델이다.
SegFormer는 semantic segmentation 작 업 을 위 해 Transformer (Vaswani et al., 2017)와 경량 multilayer perceptron (MLP) 디코더를 결합한 간단하고 효율적인 모델이다. 기존 Vision Transformer (ViT) (Dosovitskiy et al., 2021)와 달리, SegFormer는 계층적 구조를 사용하여 다양한 크기의 표현을 학습할 수 있으며, 이를 통해 연산량도 효율적으로 감소시킨다. 특히, ViT가 단일 크기의 특징 맵을 사용하는 반면, SegFormer는 여러 크기의 특징 맵을 활용하여 보다 풍부한 정보를 처리한다. 또한, positional encoding을 제거해 학습 데이터와 다른 해상도의 입력이 주어졌을 때에도 성능 저하를 최소화할 수 있다. 이러한 이유로 SegFormer는 semantic segmentation을 위한 대표적인 Transformer 기반 모델로 알려져 있다.
ConvNeXt는 기존 convolution neural network (CNN) 구조를 현대화하여, ViT의 구조적 아이디어를 차용하면서도 CNN의 단순성과 효율성을 유지하는 순수한 CNN 백본 네트워크 모델이다. 해당 모델은 다양한 작업에서 Transformer 기반의 모델과 유사하거나 더 좋은 성능을 보여주며 연산 효율성이 높다. 본 연구에서는 UperNet의 백본 네트워크를 ConvNeXt로 변경한 모델을 사용한다.
Mask2Former는 다양한 segmentation 작업(panoptic, instance, semantic)에 적용할 수 있는 범용 모델이다. 예측된 마스크 영역 내에서 국소적인 특징을 추출할 수 있는 masked attention 방식을 적용한 Transformer 디코더를 사용하여 모든 영역에서 attention을 적용하는 기존 방법보다 더 빠르게 수렴하고 성능 향상시킨다. 또한, 다중 스케일 특징을 사용하여 작은 객체의 분할 성능을 개선한다.
본 연구에서는 Song et al. (2020)에서 사용된 데이터를 활용하였다. 해당 데이터셋은KOMPSAT-3A위성으로 촬영된 국내 도시의 위성 영상 30장으로 구성되어 있으며, 건물, 도로, 농경지, 비닐하우스, 산림, 수변 등 6가지 공간 객체에 대한 주석 정보를 포함하고 있다. 이 데이터셋은 도시 분석에 중요한 건물과 도로와 같은 일반적인 객체뿐 만 아니라, 국내 토지 분석에 필요한 비닐하우스와 농경지와 같은 독특한 객체를 포함한다. 또한, 산림과 수변 객체에 대한 정보를 제공함으로써 국내 환경 분석에도 유용하다. 각 객체는 시각화 시 빨강, 노랑, 파랑, 주황, 연두, 하늘색으로 구분하여 표시된다. 본 연구에서는 semantic segmentation 모델의 학습 및 평가를 위해 위성 영상을 1,024 × 1,024 크기의 패치로 분할하여 사용하였다. 이를 통해 학습 데이터는 7,962장, 검증 데이터는 1,269장, 테스트 데이터는 3,804장으로 구성되었다.
모든 모델은 NVIDIA RTX 4090 GPU 1장으로 학습된다. U-Net, DeepLabV3+, SegFormer는 ImageNet 1K (Deng et al., 2009)로 사전 학습된 모델을 사용하고, ConvNeXt, Mask2Former는 ImageNet 21K (Russakovsky et al., 2014)로 사전 학습된 모델을 사용한다. 학습에 사용한 모델별 하이퍼 파라미터는 Tabel 1에 제시되어 있다. 성능 평가는 intersection over union (IoU)와 mean IoU (mIoU) 측정 지표를 사용하였다. IoU는 semantic segmentation 작업에서 널리 사용되는 지표로, 정답인 ground truth와 추론 결과 간의 겹침 정도를 측정하며, 이는 ground truth와 추론 결과의 교집합을 합집합으로 나누어 계산된다. mIoU는 분할하려는 모든 객체의 IoU 평균값이다.
Table 2는 테스트 데이터셋에서 각 영상 향상 기법에 따른 semantic segmentation 모델별mIoU 성능을 보여주며, 모델별로 가장 높은 성능은 볼드체로 강조되어 있다. 해당 성능 수치는 Fig. 4에서 그래프로 시각화된다. Table 2와 Fig. 4에서 볼수 있듯이 전통적인 semantic segmentation 모델인 U-Net과 DeepLabV3+는 모든 영상 향상 기법을 적용했을 때 원본 영상 대비 약 1.5~2 mIoU 이상의 성능 향상을 보이며, 영상 향상 기법이 유의미한 효과를 준다는 것을 확인할 수 있었다. U-Net의 경우, 백분위수 스트레칭 단독 적용보다 다른 기법을 함께 적용했을 때 성능이 더 높게 나타났다. 반면, DeepLabV3+에서는 백분위수 스트레칭 단독 적용이 다른 기법을 함께 적용한 경우보다 더 높은 성능을 보였다. 또한, 최신 모델인 SegFormer와 비교했을 때도 RSWHE를 함께 적용한 경우를 제외하고는 DeepLabV3+에서 백분위수 스트레칭 단독 적용이 더 높은 성능을 기록하였다. 이 결과는 DeepLabV3+ 기반 모델에서 백분위수 스트레칭이 효과적인 영상 향상 기법임을 시사한다.
더 최신 모델인 Segformer와 Mask2Former의 경우에도 모든 영상 향상 기법을 적용한 결과가 원본 영상보다 성능이 향상되었으나, 그 차이는 1 mIoU를 넘지 않는 약간의 향상에 그쳤다. 반면, ConvNeXt는 백분위수 스트레칭을 제외한 다른 영상 향상 기법에서 성능이 오히려 하락하는 양상을 보였다. 이는 최신 모델들이 더 뛰어난 특징 추출 능력을 바탕으로 원본 데이터의 품질이 다소 떨어지더라도 일정 수준 이상의 성능을 유지할 수 있음을 시사한다. ConvNeXt의 경우처럼, 과도한 영상 변형은 오히려 성능을 저하시킬 수도 있다는 점도 확인할 수 있다. 실험 결과 5개 모델 중 3개 모델에서 백분위수 스트레칭 기법이 가장 우수한 성능을 보였으며, RSWHE 기법 또한 2개 모델에서 좋은 성능을 나타냈다. 이러한 분석을 바탕으로, KOMPSAT-3A 위성의 영상을 활용한 semantic segmentation 작업에서는 백분위수 스트레칭 또는 RSWHE 기법을 적용하는 것이 가장 좋은 성능을 보일 가능성이 높다.
이 장에서는 연구에서 사용한 데이터 셋의 객체 별 각 영상 향상 기법의 영향을 정량적으로 분석한다. 모든 결과는 각 객체를 대상으로, 각각의 영상 향상 기법이 적용된 semantic segmentation 모델별 IoU 성능을 보여주며, 모델별로 가장 높은 성능은 볼드체로 강조되어 있다.
Table 3은 건물의 결과를 나타낸다. 대부분의 모델에서 원본 영상보다 영상 향상 기법을 적용한 결과가 더 좋은 성능을 보였다. 특히 RSWHE 기법은 U-Net, SegFormer, ConvNeXt에서 가장 높은 성능을 달성하며, 건물 분할 작업에서 효과적임을 보여준다. Mask2Former 모델에서는 CLAHE 기법이 가장 우수한 성능을 보였으나, RSWHE 역시 두 번째로 좋은 성능을 기록해 의미 있는 성능 향상을 제공함을 확인할 수 있다. 반면, DeepLabV3+에서는 백분위수 스트레칭이 가장 좋은 성능을 나타냈으며, RSWHE 기법은 원본 영상보다 낮은 성능을 기록했다. 이러한 결과는 건물 분할을 위한 모델 학습 시, RSWHE 기법이 일반적으로 좋은 성능을 달성하지만, DeepLabV3+ 기반의 모델에서는 백분위수 스트레칭을 사용하는 것이 성능 향상에 더 유리할 수 있음을 시사한다.
Table 3 Performance of building by semantic segmentation model for different image enhancement methods on test datasets
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 72.24 | 75.96 | 77.56 | 78.75 | 79.18 |
PS | 75.87 | 76.98 | 76.82 | 79.26 | 79.33 |
PS + CLAHE | 75.96 | 76.80 | 77.53 | 79.23 | 79.57 |
PS + DSIHE | 75.69 | 76.55 | 77.60 | 78.75 | 78.71 |
PS + RSWHE | 76.42 | 75.81 | 78.38 | 79.69 | 79.36 |
PS + WTHE | 76.04 | 76.23 | 78.16 | 79.05 | 79.21 |
Table 4는 도로의 결과를 나타낸다. 전통적으로 많이 사용되는 UNet과 DeepLabV3+에서는 원본 영상에 비해 모든 영상 향상 기법이 더 높은 성능을 보였으나, 더 최신의 모델에서는 성능이 저하되거나 약간의 성능 향상만 나타났다. 이는 최신 모델에서는 영상 향상 기법의 효과가 다소 제한적일 수 있음을 보여준다. 그럼에도 불구하고 SegFormer를 제외한 나머지 모델들은 백분위수 스트레칭을 적용했을 때 원본 영상보다 더 높은 성능을 달성하여, 성능 향상에 유의미한 영향을 미쳤다. 반면, SegFormer 기반 모델을 사용하는 경우에는 RSWHE 기법을 적용하는 것이 더 나은 성능을 얻는 데 도움이 될 수 있다.
Table 4 Performance of road by semantic segmentation model for different image enhancement methods on test datasets
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 67.54 | 72.64 | 74.28 | 75.6 | 75.82 |
PS | 71.76 | 73.93 | 73.71 | 75.78 | 75.85 |
PS + CLAHE | 69.88 | 74.13 | 74.08 | 75.42 | 75.79 |
PS + DSIHE | 70.76 | 73.69 | 73.87 | 75.79 | 75.57 |
PS + RSWHE | 71.12 | 73.01 | 74.59 | 75.37 | 75.57 |
PS + WTHE | 70.39 | 73.22 | 74.11 | 75.42 | 75.80 |
Table 5는 비닐하우스 실험 결과를 보여준다. DeepLabV3+, SegFormer, Mask2Former에서는 백분위수 스트레칭이 가장 효과적인 방법으로 확인되었다. U-Net의 경우WTHE 방법에서 가장 우수한 성능을 보였으나, 백분위수 스트레칭에서도 두 번째로 높은 성능을 기록하였다. 반면 ConvNeXt는 백분위수 스트레칭과WTHE 에서도 우수한 결과를 보였지만, 독특하게도 원본 영상에서 가장 높은 성능을 나타냈다. 또한, 최신 모델인 SegFormer에서는 각 방법 별로 성능 차이가 2 IoU이상 나는 경우도 있는 반면 ConvNeXt와Mask2Former의 각 방법 별 성능 차이 크지 않다. 이는 ConvNeXt와 Mask2Former가 다른 모델들에 비해 대비 변화에 더 강인한 특성을 가지고 있음을 시사한다.
Table 5 Performance of plastic house by semantic segmentation model for different image enhancement methods on test datasets
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 65.26 | 71.97 | 73.67 | 77.73 | 77.14 |
PS | 68.58 | 75.39 | 75.93 | 77.03 | 77.30 |
PS + CLAHE | 67.66 | 74.88 | 73.05 | 76.01 | 76.85 |
PS + DSIHE | 68.18 | 74.14 | 74.52 | 75.69 | 77.04 |
PS + RSWHE | 67.68 | 73.36 | 75.27 | 76.69 | 77.29 |
PS + WTHE | 68.69 | 74.31 | 74.19 | 77.10 | 77.19 |
Table 6은 농경지 실험 결과를 보여준다. DeepLabV3+, SegFormer, Mask2Former에서는 백분위수 스트레칭이 가장 효과적인 방법으로 확인되었다. 반면 U-Net은WTHE 방법에서 가장 우수한 성능을 보였지만, 백분위수 스트레칭의 경우 다른 방법에 비해 상대적으로 낮은 성능을 기록하였다. ConvNeXt는 원본 영상과 CLAHE에서 가장 높은 성능을 달성하였다. 이러한 결과는 비닐하우스 실험 결과와 유사한 양상을 보이며, 두 객체가 지리적으로 유사한 환경에 위치할 가능성이 높아 비슷한 결과가 나타난 것으로 판단된다.
Table 6 Performance of farmland by semantic segmentation model for different image enhancement methods on test datasets
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 73.01 | 77.48 | 78.62 | 80.52 | 80.04 |
PS | 74.48 | 79.70 | 80.01 | 80.38 | 80.24 |
PS + CLAHE | 75.22 | 78.89 | 79.53 | 80.52 | 80.03 |
PS + DSIHE | 74.79 | 78.74 | 79.11 | 80.00 | 80.21 |
PS + RSWHE | 75.05 | 79.18 | 79.94 | 80.34 | 80.23 |
PS + WTHE | 75.29 | 78.69 | 79.55 | 80.14 | 79.89 |
Table 7은 산림 분석 결과를 나타낸다. DeepLabV3+와Mask2Former에서는 백분위수 스트레칭이 가장 우수한 성능을 보였으며, ConvNeXt의 경우 최상의 성능은 아니었지만 두 번째로 높은 성능을 기록하였다. 반면 U-Net과 SegFormer에서는 원본 영상보다 백분위수 스트레칭의 결과가 낮았고, 다른 대부분의 방법에서는 비교적 우수한 성능을 보였다. 이는 산림이 다른 객체들보다 대비 차이에 민감하게 반응할 수 있음을 시사한다. 또한, 대부분의 모델에서WTHE가 성능 향상에 기여하는 반면, U-Net은WTHE 적용 시 매우 낮은 성능을 기록하였다. 이는 U-Net 기반 모델을 활용해 산림을 분석할 경우 WTHE가 성능 저하를 초래할 수 있음을 보여준다.
Table 7 Performance of forest by semantic segmentation model for different image enhancement methods on test datasets
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 73.76 | 72.96 | 77.64 | 79.06 | 78.85 |
PS | 70.90 | 78.36 | 77.45 | 79.39 | 80.11 |
PS + CLAHE | 75.03 | 76.26 | 78.22 | 78.13 | 79.21 |
PS + DSIHE | 73.68 | 75.63 | 78.44 | 79.18 | 79.48 |
PS + RSWHE | 73.84 | 75.36 | 77.73 | 79.28 | 79.45 |
PS + WTHE | 69.99 | 78.07 | 78.34 | 79.53 | 79.75 |
Table 8은 수변 분석 결과를 보여준다. DeepLabV3+, ConvNeXt, Mask2Former에서는 백분위수 스트레칭이 가장 우수한 성능을 보였다. 반면, U-Net과 SegFormer에서는 백분위수 스트레칭이 가장 낮은 성능을 기록하였으며, 특히 U-Net은 다른 방법들에 비해 3 IoU 이상의 큰 성능 차이를 보였다. 또한, DeepLabV3+의 경우 원본과 다른 방법을 적용한 결과의 차이가 3.5 IoU 이상의 차이를 보이며 다른 객체들에 비해 더 큰 차이를 보였다. 이러한 결과는 수변 지역이 대비 변화에 민감하게 반응함을 시사하며, 성능 편차가 적은 SegFormer, ConvNeXt, Mask2Former는 대비 변화에 상대적으로 더 강인한 특성을 가지고 있음을 시사한다.
Table 8 Performance of waterside by semantic segmentation model for different image enhancement methods on test datasets
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 81.21 | 83.80 | 90.67 | 90.47 | 90.54 |
PS | 81.00 | 90.83 | 89.93 | 91.02 | 91.32 |
PS + CLAHE | 85.24 | 87.73 | 90.23 | 90.60 | 90.10 |
PS + DSIHE | 84.81 | 89.07 | 90.10 | 90.38 | 91.09 |
PS + RSWHE | 85.73 | 89.07 | 90.54 | 90.49 | 90.99 |
PS + WTHE | 85.72 | 88.79 | 90.07 | 90.14 | 90.56 |
모든 객체에 대한 실험 결과를 종합하면, 최신 모델인 ConvNeXt, Mask2Former, SegFormer는 모든 객체에서 원본 영상의 성능이 다른 기법들과 유사한 수준을 유지하였다. 반면, 전통적인 모델인 U-Net과 DeepLabV3+는 모든 객체에서 원본 영상의 성능이 상대적으로 낮게 나타났다. 이는 최신 모델들이 대비 차이에 더 강인함을 보여주며, 대비 차이가 큰 지역에서 촬영된 위성 영상을 분석할 때 최신 모델을 사용하는 것이 더 균일하고 안정적인 결과를 얻는 데 유리함을 시사한다. 또한, 백분위수 스트레칭은 각 객체에서 가장 높은 성능을 달성하는 경우가 많아 일반적으로 성능이 우수한 기법으로 평가된다. 그러나 객체별로 효과적인 기법에 차이가 있어, 특정 객체를 분석할 때는 본 연구와 같이 최적의 방법을 사전에 검토하고 선택하는 과정이 필요함을 보여준다.
가장 높은 평균 성능을 보이는 Mask2Former와 전통적으로 위성 영상 객체 분석에 널리 사용되는 U-Net을 활용하여 정성적 결과를 비 교하였다. Fig. 5와 6은 각각 Mask2Former와 U-Net의 추론 결과를 보여주며, 시각적 설명을 원활히 하기 위해 원본 대신 백분위수 스트레칭을 적용한 영상을 사용하였다. 각 그림의 분홍색 박스를 통해 원본 및 영상 향상 기법의 결과 차이가 나타나는 부분을 강조하였으며, 이를 바탕으로 각 기법에 대해 정성적인 비교를 수행한다.
Mask2Former의 경우, Table 2의 정량적 결과와 유사하게 정성적 결과에서도 큰 차이가 나타나지 않았다. 건물의 경우, Fig. 5의 첫 번째 행에 강조된 부분에서 볼 수 있듯이 일부 작은 객체를 분할하지 못하는 경우도 있지만, 원본 영상에서 분할되지 않았던 부분을 분할할 수 있으며, 백분위수 스트레칭 기법을 통해 건물을 과대 분할하는 문제도 영상 향상 기법 적용으로 완화할 수 있음을 보여준다. 농경지, 산림, 도로의 경우 Fig. 5의 아래 세 행에서 볼 수 있듯이, 원본 영상에서 분할하지 못한 부분을 영상 향상 기법을 통해 대부분 분할할 수 있었다. 예외적으로 농경지와 산림의 경우 CLAHE를 적용한 결과가 원본 영상 결과와 유사하거나 약간 떨어지는데, 이는 CLAHE가 농경지와 산림 분석에는 효과적이지 않음을 나타낸다.
U-Net의 경우, Table 2의 정량적 결과와 일치하게, 영상 향상 기법을 적용한 결과가 원본 영상보다 정성적으로도 더 우수한 것으로 나타났다. 건물의 경우, Fig. 6의 첫 번째 행에서 강조된 부분에서 볼 수 있듯이, 큰 건물임에도 원본 영상에서는 정확히 분할되지 않지만, 영상 향상 기법을 적용하면 대부분의 경우 더 정확하게 분할된다. 또한, Fig. 6의 두 번째 행의 상단 박스에서는 작은 건물에 대해 원본 영상이 정확히 분할하지 못하는 반면, 영상 향상 기법을 적용하면 보다 정확한 분할이 가능하다. 비닐하우스의 경우, Fig. 6의 두 번째 행 하단박스에서 확인할 수 있듯이, 원본 영상에서 농경지로 잘못 분할된 부분이 영상 향상 기법을 통해 비닐하우스로 올바르게 분할된다. 또한, Fig. 6의 세 번째 행 상단 박스에서는 원본 영상이 건물을 비닐하우스로 잘못 분할했으나, 영상 향상 기법을 적용하면 이를 정확히 건물로 분할할 수 있다. 도로의 경우, Fig. 6의 마지막 행에서 원본 영상이 도로를 비닐하우스로 분할한 반면, 영상 향상 기법을 적용하면 도로를 정상적으로 분할할 수 있다. 영상 향상 기법들이 효과적이었지만, 배경을 잘못 분할하는 경우는 여전히 원본 영상과 유사하게 나타난다. 그럼에도 불구하고, 다른 객체의 경우 원본 영상보다 개선된 결과를 보여주어, U-Net을 활용한 객체 분할에서 영상 향상 기법이 효과적임을 보여준다.
전체적인 분석 결과, 백분위수 스트레칭은 가장 권장되는 영상 향상 기법으로 평가되었으며, 일부 모델에서는 RSWHE가 효과적인 대안으로 나타났다. 객체별로도 백분위수 스트레칭이 대체로 우수한 성능을 보였으나, 특정 모델에서는 기법의 효과가 상이하게 나타났다. 특히, 전통적인 모델(U-Net, DeepLabV3+)의 경우 영상 향상 기법이 성능 향상에 중요한 역할을 한 반면, 최신 모델(SegFormer, ConvNeXt, Mask2Former)에서는 성능 향상이 상대적으로 제한적인 경향을 보였다. 이러한 결과는 모델과 객체마다 특성이 서로 다르기 때문에 발생한 것으로 분석된다. 따라서, 모델 및 객체에 최적화된 영상 향상 기법을 선정하기 위해서는 본 연구와 같이 분석 과정을 거칠 필요가 있음을 시사한다
본 연구에서는 KOMPSAT-3A 위성 데이터셋을 활용하여 5가지 영상 향상 기법이 semantic segmentation 작업에 미치는 영향을 분석하였다. 분석을 위해 5개의 semantic segmentation 모델에 각 기법을 적용해, 성능을 평가했다. 실험 결과, 6개의 공간 객체 전체를 고려한 mIoU 기준으로는 백분위수 스트레칭 또는 RSWHE 기법이 일반적으로 좋은 성능을 보였다. 특히, 도시 분석에서 중요한 건물과 도로객체에 대해 각각 RSWHE와 백분위수 스트레칭 기법이 높은 성능을 달성하는 것으로 나타났다. 반면, 각 모델에서 효과적인 영상 향상 기법은 차이가 있었으며, 객체에 따라 그 효과도 다르게 나타나기 때문에 모든 영상에 동일한 기법을 적용하는 것만으로는 성능 향상에 한계가 있을 수 있다. 또한, 본 연구는 KOMPSAT-3A 위성 영상을 대상으로 분석을 진행했기 때문에, 다른 위성에서는 효과적인 영상 향상 기법이 달라질 가능성이 있다. 이러한 결과는 효과적인 기법을 선정하기 위해서는 본 연구와 같이 분석하는 과정이 필요함을 시사한다. 하지만 본 연구는 분석하고자 하는 모델 및 기법이 많을수록 시간과 컴퓨팅 자원이 소모가 증가한다는 한계가 존재한다. 따라서 각 위성 영상의 히스토그램에 최적화된 효과적인 영상 처리 기법이나 학습과정에서 최적화된 영상을 생성할 수 있는 원스테이지(OneStage) 모델에 대한 심층적인 연구가 필요하다.
Table 1 Hyperparameters for training each semantic segmentation model
Model | Batch size | Iteration | Optimizer | Learning rate | Loss function |
---|---|---|---|---|---|
U-Net | 2 | 160,000 | SGD | 1e-2 | Cross Entropy |
DeepLabV3+ | 2 | 80,000 | SGD | 1e-2 | Cross Entropy |
SegFormer | 1 | 160,000 | SGD | 1e-2 | Cross Entropy |
ConvNeXt + UperNet | 2 | 160,000 | AdamW | 1e-4 | Cross Entropy |
Mask2Former | 1 | 160,000 | AdamW | 1e-4 | Cross Entropy, Dice |
본 연구는 과학기술정보통신부의 재원으로 한국연구재단 “위성정보 빅데이터 활용 지원체계 개발사업(RS-2022-00165154)”의 지원을 받아 수행하였습니다.
No potential conflict of interest relevant to this article was reported.
Korean J. Remote Sens. 2024; 40(6): 1421-1433
Published online December 31, 2024 https://doi.org/10.7780/kjrs.2024.40.6.3.4
Copyright © Korean Society of Remote Sensing.
주진기1, 안지승2, 이기웅2, 최정렬3, 장재영4, 이광재4*
1(주)아이옵스 연구원
2(주)아이옵스 주임연구원
3(주)아이옵스 기술이사
4한국항공우주연구원 위성활용부 책임연구원
Jingi Ju1, Jiseung Ahn2, Giwoong Lee2, Jeongyeol Choe3, Jaeyoung Chang4, Kwang-Jae Lee4*
1Researcher, IOPS Co., Ltd., Daejeon, Republic of Korea
2Assistant Researcher, IOPS Co., Ltd., Daejeon, Republic of Korea
3Chief Technical Officer, IOPS Co., Ltd., Daejeon, Republic of Korea
4Principal Researcher, Satellite Application Division, Korea Aerospace Research Institute, Daejeon, Republic of Korea
Correspondence to:Kwang-Jae Lee
E-mail: kjlee@kari.re.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Advances in the aerospace industry have driven growing research into the use of artificial intelligence for analyzing objects of interest in satellite imagery. Unlike typical 8-bit RGB camera images, however, satellite imagery often contains 16-bit pixel values, which can result in outliers that darken the image. This issue leads to difficulty in object identification and negatively impacts analysis performance. To address this issue, various image enhancement techniques have been proposed, but the effectiveness of each technique depends on the specifics of each satellite and the task to be performed. To address this issue, various image enhancement techniques have been proposed. However, since each satellite has unique characteristics and the effectiveness of each technique varies depending on the specific task, it is necessary to carefully evaluate which technique is most suitable. This research analyzed which of the five image enhancement techniques is most suitable for semantic segmentation tasks using the dataset from the KOMPSAT-3A satellite, which is widely used in South Korea. Experimental results using five semantic segmentation models indicated that percentile stretching performed well in three models, suggesting it as the most universally applicable method. In addition, for buildings and roads, which are important objects in urban analysis, recursive separated and weighted histogram equalization (RSWHE) and percentile stretching were found to be effective.
Keywords: KOMPSAT, Image enhancement method, Semantic segmentation
Semantic segmentation은 자율 주행(Feng et al., 2020; Kim et al., 2023; Siam et al., 2017), 의료 영상 분석(Havaei et al., 2016; Hesamian et al., 2019) 등과 같은 다양한 딥 러닝 기반의 응용 프로그램의 핵심 기술이다. 영상의 각 픽셀을 분류하는 픽셀 별 분류 문제로 각 픽셀은 특정 클래스 또는 객체에 해당한다. 최근 몇 년 동안 많은 양의 영상 데이터(Everingham et al., 2010; Cordts et al., 2016; Zhou et al., 2019)를 기반으로 다양한 semantic segmentation 방법론들(Cheng et al., 2022; Chen et al., 2018; Ronneberger et al., 2015; Xiao et al., 2018; Xie et al., 2021)이 제안되어 놀라운 발전을 이루었다. 제안된 방법들은 식별력이 높은 객체에 대해서는 보편적으로 우수한 결과를 제공하지만 객체를 구별하기 힘든 경우 성능이 떨어진다.
관측 위성 데이터의 수신 빈도가 증가하고 위성 센서 성능 개선을 통해 공간 해상도가 향상되면서, 대용량의 다양한 위성 데이터를 수집할 수 있게 되었다. 이에 따라 인공지능을 연계한 다양한 연구와 서비스(Eom et al., 2023; Hur et al., 2024; Lee et al., 2022; Noh et al., 2022; Ye, 2023)도 활발히 진행되고 있다. 특히, 관심있는 객체 분석을 위해 semantic segmentation 모델을 활용하는 다양한 방법론들(Gong et al., 2023; Jeong et al., 2023; Park et al., 2023)이 제안되었다. 그러나 위성 영상은 일반적인 RGB 카메라와 달리 16bit 크기의 픽셀 값을 주로 가지며, 이로 인해 픽셀 값의 범위가 넓어져 이상치 값이 매우 커질 수 있다. 큰 이상치 값은 Fig. 1(a)와 같이 영상을 매우 어둡게 만드는 문제를 발생시킨다. 해당 영상을 학습한 semantic segmentation 모델은 객체를 구별하기 위한 특징(feature)을 효과적으로 학습하기 어려워, 기대하는 결과에 비해 낮은 성능을 달성한다. 또한, 사람이 영상에서 객체를 구별하기 어렵기 때문에 영상의 활용도가 떨어진다. 이러한 문제를 해결하는 가장 간단한 방법은 이상치 값이 큰 영상을 제거하는 것이지만, 넓은 지역을 촬영하는 위성 영상의 특성상 많은 데이터가 수집되기 때문에 모든 영상을 검토하는 작업은 매우 노동집약적이고 비효율적이다.
따라서 데이터를 보다 효과적으로 처리하기 위해 다양한 영상 향상 기법을 활용한다(Chinaramanamma and Anuradh, 2024 ; Thepade and Pardhi, 2022). 이 중 널리 사용되는 두 가지 기법은 대비 스트레칭(contrast stretching)과 히스토그램 평활화(histogramequalization)이다. 대비 스트레칭은 영상의 픽셀 값 분포를 확장하여 대비를 개선하고 영상을 선명하게 만드는 기법으로, Fig. 1(b)에서 볼 수 있듯 원본 영상보다 더 밝아지고 분석에 필요한 객체가 뚜렷하게 부각된다. 히스토그램 평활화는 영상의 히스토그램을 재분포시켜 밝기 값을 고르게 분포하도록 만드는 기법이다. 이 기법은 영상의 시각적 품질을 향상시키고, 어두운 부분이나 밝은 부분의 세부 정보를 더 잘 드러내는데 유용하다. 그러나 영상의 노이즈를 강조하거나 Fig. 1(c)와 같이 과도한 변형을 초래할 수 있는 단점이 있다. 이러한 문제를 보완하기 위해 다양한 개선 기법들이 제안되었다(Kim and Chung, 2009; Wang et al., 1999; Wang and Ward, 2007; Zuiderveld, 1994). 그러나 기존 연구인 Chinaramanamma and Anuradh (2024)과 Thepade and Pardhi (2022)에서는 영상 향상 기법들을 활용하여 영상 품질 향상 결과만 제시했으며, 개선된 영상을 활용한 다운스트림 작업(downstreamtask)의 성능 결과는 제공하지 않았다. 그러나 작업의 특성에 따라 효과적인 영상 향상 기법이 다를 수 있으므로, 다운스트림 작업에 적합한 영상 향상 기법을 식별하는 것이 중요하다. 또한, 위성 영상은 위성의 종류에 따라 탑재된 카메라, 센서, 고도 등의 차이로 인해 품질과 특성이 다양하다. 각 영상 향상 기법 고유한 특징을 가지며, 수행하고자 하는 작업 및 영상이 수집된 위성에 따라 효과가 달라진다. 따라서 특정 위성 영상에 적합한 최적의 기법을 작업에 맞춰 검토할 필요가 있다.
이를 위해 본 연구에서는 위성 영상 활용 분야에서 널리 사용되는 KOMPSAT-3A 위성 데이터셋과 객체를 효과적으로 분석할 수 있는 semantic segmentation 작업을 기반으로 5가지 영상 향상 기법(백분위수 스트레칭; percentile stretching), contrast limited adaptive histogram equalization [CLAHE], dualistic sub-image histogram equalization [DSIHE], weighted thresholded histogram equalization [WTHE], recursive separated and weighted histogram equalization [RSWHE])을 비교 분석하였다. 각 기법의 효과를 평가하기 위해 5개의 semantic segmentation 모델(U-Net, DeepLabV3+, SegFormer, ConvNeXt [Liu et al., 2022], Mask2Former)을 활용하였으며, 이를 통해 다양한 실험 결과를 제공한다.
본 연구에서는KOMPSAT-3A위성 영상을 활용한 semantic segmentation 작업을 위해 효과적인 영상 향상 기법을 분석하고자 한다. 이를 위해 대비 스트레칭 기반의 백분위수 스트레칭과 히스토그램 평활화 기반의 CLAHE, DSIHE, WTHE, RSWHE 기법을 적용하였다.
Table 2와 Fig. 4에서 확인할 수 있듯이, CLAHE를 단독으로 적용했을 때는 백분위수 스트레칭과 함께 적용한 경우보다 성능이 저하되는 결과를 보였다. 또한, CLAHE만 적용한 영상 Fig. 2(b)와 백분위수 스트레칭과 CLAHE를 함께 적용한 영상 Fig. 2(c)의 영상 품질에서도 차이가 나타났다. 이는 위성 영상에서 발생하는 매우 큰 이상치 값이 히스토그램에 영향을 미쳐 히스토그램 평활화 기반 기법의 영상 향상 효과를 제한할 수 있음을 간접적으로 보여준다. 이러한 문제를 완화하기 위해 본 연구에서는 백분위수 스트레칭을 먼저 적용한 후 히스토그램 평활화 기반 기법들을 사용한다.
Table 2 . Performance by semantic segmentation model for each image enhancement method on test datasets.
Method | Semantic segmentation model (mIoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 73.58 | 76.82 | 79.44 | 81.05 | 80.93 |
PS | 75.00 | 79.93 | 79.64 | 81.13 | 81.35 |
CLAHE | 74.74 | 77.82 | 79.33 | 80.44 | 80.63 |
PS + CLAHE | 75.97 | 78.97 | 79.55 | 80.68 | 80.95 |
PS + DSIHE | 75.80 | 78.69 | 79.68 | 80.69 | 81.04 |
PS + RSWHE | 76.12 | 78.49 | 80.10 | 81.00 | 81.14 |
PS + WTHE | 75.46 | 79.10 | 79.81 | 80.96 | 81.08 |
PS: percentile stretching..
전체적인 연구 절차는 Fig. 3에서 확인할 수 있다. 연구에서 사용된 영상 향상 기법, semantic segmentation 모델 그리고 연구에 활용된 자료에 대한 자세한 내용은 2.2~2.4절에서 설명한다.
백분위수 스트레칭은 대비 스트레칭 기반의 방법 중 위성 영상 향상에 널리 사용되는 기법으로 영상의 픽셀 값 분포에서 특정 백분위수 범위에 해당하는 값들을 선택해 새로운 범위로 재조정한다.
식(1)은 백분위수 스트레칭의 과정을 나타낸다. 입력 영상의 픽셀 값 분포에서 하위와 상위 백분위에 해당하는 최소값(vmin), 최대값(vmax)을 계산한 뒤, 이를 기준으로 픽셀 값을 정규화한다. 이후, 정규화된 값을 새로운 범위로 변환하여 이미지의 대비를 향상시킨다. 이 과정은 어두운 영역을 더 밝게 하고, 밝은 영역을 더욱 강조함으로써 영상의 디테일과 시각적 품질을 개선한다. 본 연구에서는 픽셀 값 분포의 1%와 99%로 설정하여 사용한다. Fig. 2(a)는 백분위수 스트레칭이 적용된 영상을 나타낸다.
히스토그램 평활화는 히스토그램을 재분포하여 영상의 세부 정보를 강조하는데 효과적이지만, Fig. 1(c)와 같이 과도한 변형이 발생하면 분석 성능이 저하될 수 있다. 이러한 문제를 고려하여, 본 연구에서는 시각적으로 과도한 변화를 최소화하는 4가지 개선된 기법(CLAHE, DSIHE, WTHE, RSWHE)을 선정하여 분석에 활용하였다.
CLAHE는 기존 히스토그램 평활화 기법의 단점인 과도한 대비 증가 문제를 해결하기 위해 제안된 기법이다. 입력 영상을 일정 크기의 컨텍스트 영역으로 분리한 뒤, 각 영역의 히스트로그램을 계산한다.이 과정에서 히스토그램 값이 클리핑 한계를 초과하지 않도록 제한하며, 초과된 픽셀 수는 다른 그레이 레벨로 재분배한다.
각 컨텍스트 영역의 히스토그램은 식(2)로 계산된다. 여기서HCR(i)는 컨텍스트 영역 CR의 그레이 레벨 i에 대한 픽셀 강도(히스토그램 값)를 의미하며, NCL는 클리핑 한계, Nacp는 초과된 픽셀을 다른 그레이 레벨로 분배한 값을 나타낸다. 이렇게 계산된 히스토그램을 기반으로 히스토그램 평활화를 적용하고, 결과 픽셀 값은 매핑과 보간 과정을 통해 최종 출력 영상에 반영된다. 이 기법은 컨텍스트 영역별로 적응형 히스토그램 평활화를 수행하여 국소적인 대비를 향상시키며, 클리핑 한계를 통해 과도한 대비 증가를 방지하고 노이즈 증폭을 억제하면서도 효과적인 평활화를 구현한다. 본 연구에서는 컨텍스트 영역 크기를 256으로 설정하였다. Fig. 2(b)는 CLAHE를 단독으로 적용한 영상이고 Fig. 2(c)는 백분위수 스트레칭을 적용한 후 CLAHE를 적용한 영상을 나타낸다.
DSIHE는 픽셀 값 분포의 중간 값을 기준으로 두 서브 히스토그램으로 분할 후 각 서브 히스토그램에 평활화를 적용하는 기법이다. 원본 영상의 히스토그램을 분석하여 픽셀 값의 확률 밀도 함수를 기반으로 두 개의 서브 영상(XL, XU)으로 분할한다. 분할 기준은 확률 밀도 함수의 누적 분포 함수가 0.5에 도달하는 지점인 Xe이다.
최종 출력 영상의 픽셀 값 Y(i, j)는 위의 식(3)으로 계산된다. 여기서 CL과 CU는 각 서브 영상의 누적 분포 함수이다. 하위 서브 영상과 상위 서브 영상를 각각 히스토그램 평활화 변환으로 처리한 뒤, 결합하여 최종 영상을 생성한다. 해당 기법은 저조도 영상이나 명암 대비가 낮은 영상에 효과적이다. Fig. 2(d)는 백분위수 스트레칭을 적용한 후 DSIHE를 적용한 영상을 나타낸다.
WTHE는 히스토그램의 가중치와 임계 값을 사용하여 빠르게 영상의 대비를 향상시키는 기법이다. 영상의 대비를 향상시키기 위해 확률 밀도 함수 P(k)에 가중치와 임계값을 기반으로 수정한다. 여기서 k는 영상의 명암도를 의미한다. 이 과정에서 하한 임계값 Pl과 상한 임계값 Pu을 설정하여, P(k)를 변환한다. 변환된 확률 밀도 함수 P(k)는 다음과 같이 식(4)로 정의된다.
여기서 Ω(P(k))는 정규화된 멱법칙 함수로 가중치 지수 r을 사용하여 대비 향상의 정도를 조절한다. 이를 통해 변환된 확률 밀도 함수 Pwt(k)를 이용하여 히스토그램 평활화를 수행한다. 본 연구에서는 Pl을 0, Pu를 0.5, r을 0.5로 설정한다. Fig. 2(e)는 백분위수 스트레칭을 적용한 후WTHE를 적용한 영상을 나타낸다.
RSWHE는 입력 영상의 평균 명도 값을 보존하기 위하여, 입력 영상의 히스토그램을 영상의 평균 명도 값을 기준으로 c회 (c ≥ 1) 반복적으로 분할하는 것이다. 이때 분할 횟수에 따른 c에 따른 서브 히스토그램의 수는 2c이 된다. 예를 들어, c=2인 경우 [X0, XL–1]의 명암 값을 가지는 영상 X는 위 식에 의해 4개의 서브 이미지로 분할되고, 각 서브 이미지는 식(5)로 정의된다.
여기서 Xm, Xml, Xmu은 분할 기준 값을 의미하고 확률 밀도 함수 pX(x)를 기반으로 식(6)과 같이 계산된다.
이를 기반으로 각 영역에 대한 변환 함수는 식(7)과 같이 정의된다.
여기서 CNLL(x), CNLU(x), CNUL(x), CNUU(x)는 각 영역에 대한 누적 분포함수이다. 최종 결과 이미지 Y는 모든 영역에서 변환된 값을 결합하여 식(8)과 같이 만들어진다.
본 연구에서는 반복 회수 c를 2로 설정한다. Fig. 2(f)는 백분위수 스트레칭을 적용한 후 RSWHE를 적용한 영상을 나타낸다.
KOMPSAT-3A 위성 영상에서 영상 향상 기법의 효과를 확인하기 위 해 semantic segmentation 분야에서 전통적으로 많이 사용하는 모델(U-Net, DeepLabV3+)과 보다 최근에 제안되어 강력한 성능을 보이는 모델(SegFormer, ConvNeXt, Mask2Fomer)을 사용한다.
U-Net은 영상의 전반적인 컨텍스트 정보를 얻는 축소 경로(contracting path)와 위치 정보를 얻는 확장 경로(expansive path)가 대칭 형태로 구성되어 있는 인코더-디코더(encoder-decoder) 기반 모델이다. 축소 경로에서 나온 고해상도 특징을 확장 경로의 각 단계에 연결하는 skip connection을 사용하여 전체적인 컨텍스트와 위치 정보를 모두 고려하여 결과를 제공한다. 해당 모델은 위성 영상 분석에 가장 널리 사용된다.
DeepLabV3+는 여러 크기의 컨텍스트 정보를 활용하는 atrous spatial pyramid pooling 모듈을 사용하는 구조와 공간 정보를 점진적으로 복구하여 더 선명한 객체 경계를 포착할 수 있는 인코더-디코더 구조의 장점들을 결합한 모델이다. 또한, 기존 공간 차원과 채널 차원을 동시에 처리하는 기존 convolution 대신 채널 축으로 나누어 각각의 특징 맵에 1 채널 convolution을 적용하는 depthwise separable convolution을 사용하여 파라미터 수와 연산량을 상당히 줄여 더 빠른 결과를 생성한다. 해당 모델은 semantic segmentation 분야에서 널리 사용되는 모델이다.
SegFormer는 semantic segmentation 작 업 을 위 해 Transformer (Vaswani et al., 2017)와 경량 multilayer perceptron (MLP) 디코더를 결합한 간단하고 효율적인 모델이다. 기존 Vision Transformer (ViT) (Dosovitskiy et al., 2021)와 달리, SegFormer는 계층적 구조를 사용하여 다양한 크기의 표현을 학습할 수 있으며, 이를 통해 연산량도 효율적으로 감소시킨다. 특히, ViT가 단일 크기의 특징 맵을 사용하는 반면, SegFormer는 여러 크기의 특징 맵을 활용하여 보다 풍부한 정보를 처리한다. 또한, positional encoding을 제거해 학습 데이터와 다른 해상도의 입력이 주어졌을 때에도 성능 저하를 최소화할 수 있다. 이러한 이유로 SegFormer는 semantic segmentation을 위한 대표적인 Transformer 기반 모델로 알려져 있다.
ConvNeXt는 기존 convolution neural network (CNN) 구조를 현대화하여, ViT의 구조적 아이디어를 차용하면서도 CNN의 단순성과 효율성을 유지하는 순수한 CNN 백본 네트워크 모델이다. 해당 모델은 다양한 작업에서 Transformer 기반의 모델과 유사하거나 더 좋은 성능을 보여주며 연산 효율성이 높다. 본 연구에서는 UperNet의 백본 네트워크를 ConvNeXt로 변경한 모델을 사용한다.
Mask2Former는 다양한 segmentation 작업(panoptic, instance, semantic)에 적용할 수 있는 범용 모델이다. 예측된 마스크 영역 내에서 국소적인 특징을 추출할 수 있는 masked attention 방식을 적용한 Transformer 디코더를 사용하여 모든 영역에서 attention을 적용하는 기존 방법보다 더 빠르게 수렴하고 성능 향상시킨다. 또한, 다중 스케일 특징을 사용하여 작은 객체의 분할 성능을 개선한다.
본 연구에서는 Song et al. (2020)에서 사용된 데이터를 활용하였다. 해당 데이터셋은KOMPSAT-3A위성으로 촬영된 국내 도시의 위성 영상 30장으로 구성되어 있으며, 건물, 도로, 농경지, 비닐하우스, 산림, 수변 등 6가지 공간 객체에 대한 주석 정보를 포함하고 있다. 이 데이터셋은 도시 분석에 중요한 건물과 도로와 같은 일반적인 객체뿐 만 아니라, 국내 토지 분석에 필요한 비닐하우스와 농경지와 같은 독특한 객체를 포함한다. 또한, 산림과 수변 객체에 대한 정보를 제공함으로써 국내 환경 분석에도 유용하다. 각 객체는 시각화 시 빨강, 노랑, 파랑, 주황, 연두, 하늘색으로 구분하여 표시된다. 본 연구에서는 semantic segmentation 모델의 학습 및 평가를 위해 위성 영상을 1,024 × 1,024 크기의 패치로 분할하여 사용하였다. 이를 통해 학습 데이터는 7,962장, 검증 데이터는 1,269장, 테스트 데이터는 3,804장으로 구성되었다.
모든 모델은 NVIDIA RTX 4090 GPU 1장으로 학습된다. U-Net, DeepLabV3+, SegFormer는 ImageNet 1K (Deng et al., 2009)로 사전 학습된 모델을 사용하고, ConvNeXt, Mask2Former는 ImageNet 21K (Russakovsky et al., 2014)로 사전 학습된 모델을 사용한다. 학습에 사용한 모델별 하이퍼 파라미터는 Tabel 1에 제시되어 있다. 성능 평가는 intersection over union (IoU)와 mean IoU (mIoU) 측정 지표를 사용하였다. IoU는 semantic segmentation 작업에서 널리 사용되는 지표로, 정답인 ground truth와 추론 결과 간의 겹침 정도를 측정하며, 이는 ground truth와 추론 결과의 교집합을 합집합으로 나누어 계산된다. mIoU는 분할하려는 모든 객체의 IoU 평균값이다.
Table 2는 테스트 데이터셋에서 각 영상 향상 기법에 따른 semantic segmentation 모델별mIoU 성능을 보여주며, 모델별로 가장 높은 성능은 볼드체로 강조되어 있다. 해당 성능 수치는 Fig. 4에서 그래프로 시각화된다. Table 2와 Fig. 4에서 볼수 있듯이 전통적인 semantic segmentation 모델인 U-Net과 DeepLabV3+는 모든 영상 향상 기법을 적용했을 때 원본 영상 대비 약 1.5~2 mIoU 이상의 성능 향상을 보이며, 영상 향상 기법이 유의미한 효과를 준다는 것을 확인할 수 있었다. U-Net의 경우, 백분위수 스트레칭 단독 적용보다 다른 기법을 함께 적용했을 때 성능이 더 높게 나타났다. 반면, DeepLabV3+에서는 백분위수 스트레칭 단독 적용이 다른 기법을 함께 적용한 경우보다 더 높은 성능을 보였다. 또한, 최신 모델인 SegFormer와 비교했을 때도 RSWHE를 함께 적용한 경우를 제외하고는 DeepLabV3+에서 백분위수 스트레칭 단독 적용이 더 높은 성능을 기록하였다. 이 결과는 DeepLabV3+ 기반 모델에서 백분위수 스트레칭이 효과적인 영상 향상 기법임을 시사한다.
더 최신 모델인 Segformer와 Mask2Former의 경우에도 모든 영상 향상 기법을 적용한 결과가 원본 영상보다 성능이 향상되었으나, 그 차이는 1 mIoU를 넘지 않는 약간의 향상에 그쳤다. 반면, ConvNeXt는 백분위수 스트레칭을 제외한 다른 영상 향상 기법에서 성능이 오히려 하락하는 양상을 보였다. 이는 최신 모델들이 더 뛰어난 특징 추출 능력을 바탕으로 원본 데이터의 품질이 다소 떨어지더라도 일정 수준 이상의 성능을 유지할 수 있음을 시사한다. ConvNeXt의 경우처럼, 과도한 영상 변형은 오히려 성능을 저하시킬 수도 있다는 점도 확인할 수 있다. 실험 결과 5개 모델 중 3개 모델에서 백분위수 스트레칭 기법이 가장 우수한 성능을 보였으며, RSWHE 기법 또한 2개 모델에서 좋은 성능을 나타냈다. 이러한 분석을 바탕으로, KOMPSAT-3A 위성의 영상을 활용한 semantic segmentation 작업에서는 백분위수 스트레칭 또는 RSWHE 기법을 적용하는 것이 가장 좋은 성능을 보일 가능성이 높다.
이 장에서는 연구에서 사용한 데이터 셋의 객체 별 각 영상 향상 기법의 영향을 정량적으로 분석한다. 모든 결과는 각 객체를 대상으로, 각각의 영상 향상 기법이 적용된 semantic segmentation 모델별 IoU 성능을 보여주며, 모델별로 가장 높은 성능은 볼드체로 강조되어 있다.
Table 3은 건물의 결과를 나타낸다. 대부분의 모델에서 원본 영상보다 영상 향상 기법을 적용한 결과가 더 좋은 성능을 보였다. 특히 RSWHE 기법은 U-Net, SegFormer, ConvNeXt에서 가장 높은 성능을 달성하며, 건물 분할 작업에서 효과적임을 보여준다. Mask2Former 모델에서는 CLAHE 기법이 가장 우수한 성능을 보였으나, RSWHE 역시 두 번째로 좋은 성능을 기록해 의미 있는 성능 향상을 제공함을 확인할 수 있다. 반면, DeepLabV3+에서는 백분위수 스트레칭이 가장 좋은 성능을 나타냈으며, RSWHE 기법은 원본 영상보다 낮은 성능을 기록했다. 이러한 결과는 건물 분할을 위한 모델 학습 시, RSWHE 기법이 일반적으로 좋은 성능을 달성하지만, DeepLabV3+ 기반의 모델에서는 백분위수 스트레칭을 사용하는 것이 성능 향상에 더 유리할 수 있음을 시사한다.
Table 3 . Performance of building by semantic segmentation model for different image enhancement methods on test datasets.
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 72.24 | 75.96 | 77.56 | 78.75 | 79.18 |
PS | 75.87 | 76.98 | 76.82 | 79.26 | 79.33 |
PS + CLAHE | 75.96 | 76.80 | 77.53 | 79.23 | 79.57 |
PS + DSIHE | 75.69 | 76.55 | 77.60 | 78.75 | 78.71 |
PS + RSWHE | 76.42 | 75.81 | 78.38 | 79.69 | 79.36 |
PS + WTHE | 76.04 | 76.23 | 78.16 | 79.05 | 79.21 |
Table 4는 도로의 결과를 나타낸다. 전통적으로 많이 사용되는 UNet과 DeepLabV3+에서는 원본 영상에 비해 모든 영상 향상 기법이 더 높은 성능을 보였으나, 더 최신의 모델에서는 성능이 저하되거나 약간의 성능 향상만 나타났다. 이는 최신 모델에서는 영상 향상 기법의 효과가 다소 제한적일 수 있음을 보여준다. 그럼에도 불구하고 SegFormer를 제외한 나머지 모델들은 백분위수 스트레칭을 적용했을 때 원본 영상보다 더 높은 성능을 달성하여, 성능 향상에 유의미한 영향을 미쳤다. 반면, SegFormer 기반 모델을 사용하는 경우에는 RSWHE 기법을 적용하는 것이 더 나은 성능을 얻는 데 도움이 될 수 있다.
Table 4 . Performance of road by semantic segmentation model for different image enhancement methods on test datasets.
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 67.54 | 72.64 | 74.28 | 75.6 | 75.82 |
PS | 71.76 | 73.93 | 73.71 | 75.78 | 75.85 |
PS + CLAHE | 69.88 | 74.13 | 74.08 | 75.42 | 75.79 |
PS + DSIHE | 70.76 | 73.69 | 73.87 | 75.79 | 75.57 |
PS + RSWHE | 71.12 | 73.01 | 74.59 | 75.37 | 75.57 |
PS + WTHE | 70.39 | 73.22 | 74.11 | 75.42 | 75.80 |
Table 5는 비닐하우스 실험 결과를 보여준다. DeepLabV3+, SegFormer, Mask2Former에서는 백분위수 스트레칭이 가장 효과적인 방법으로 확인되었다. U-Net의 경우WTHE 방법에서 가장 우수한 성능을 보였으나, 백분위수 스트레칭에서도 두 번째로 높은 성능을 기록하였다. 반면 ConvNeXt는 백분위수 스트레칭과WTHE 에서도 우수한 결과를 보였지만, 독특하게도 원본 영상에서 가장 높은 성능을 나타냈다. 또한, 최신 모델인 SegFormer에서는 각 방법 별로 성능 차이가 2 IoU이상 나는 경우도 있는 반면 ConvNeXt와Mask2Former의 각 방법 별 성능 차이 크지 않다. 이는 ConvNeXt와 Mask2Former가 다른 모델들에 비해 대비 변화에 더 강인한 특성을 가지고 있음을 시사한다.
Table 5 . Performance of plastic house by semantic segmentation model for different image enhancement methods on test datasets.
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 65.26 | 71.97 | 73.67 | 77.73 | 77.14 |
PS | 68.58 | 75.39 | 75.93 | 77.03 | 77.30 |
PS + CLAHE | 67.66 | 74.88 | 73.05 | 76.01 | 76.85 |
PS + DSIHE | 68.18 | 74.14 | 74.52 | 75.69 | 77.04 |
PS + RSWHE | 67.68 | 73.36 | 75.27 | 76.69 | 77.29 |
PS + WTHE | 68.69 | 74.31 | 74.19 | 77.10 | 77.19 |
Table 6은 농경지 실험 결과를 보여준다. DeepLabV3+, SegFormer, Mask2Former에서는 백분위수 스트레칭이 가장 효과적인 방법으로 확인되었다. 반면 U-Net은WTHE 방법에서 가장 우수한 성능을 보였지만, 백분위수 스트레칭의 경우 다른 방법에 비해 상대적으로 낮은 성능을 기록하였다. ConvNeXt는 원본 영상과 CLAHE에서 가장 높은 성능을 달성하였다. 이러한 결과는 비닐하우스 실험 결과와 유사한 양상을 보이며, 두 객체가 지리적으로 유사한 환경에 위치할 가능성이 높아 비슷한 결과가 나타난 것으로 판단된다.
Table 6 . Performance of farmland by semantic segmentation model for different image enhancement methods on test datasets.
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 73.01 | 77.48 | 78.62 | 80.52 | 80.04 |
PS | 74.48 | 79.70 | 80.01 | 80.38 | 80.24 |
PS + CLAHE | 75.22 | 78.89 | 79.53 | 80.52 | 80.03 |
PS + DSIHE | 74.79 | 78.74 | 79.11 | 80.00 | 80.21 |
PS + RSWHE | 75.05 | 79.18 | 79.94 | 80.34 | 80.23 |
PS + WTHE | 75.29 | 78.69 | 79.55 | 80.14 | 79.89 |
Table 7은 산림 분석 결과를 나타낸다. DeepLabV3+와Mask2Former에서는 백분위수 스트레칭이 가장 우수한 성능을 보였으며, ConvNeXt의 경우 최상의 성능은 아니었지만 두 번째로 높은 성능을 기록하였다. 반면 U-Net과 SegFormer에서는 원본 영상보다 백분위수 스트레칭의 결과가 낮았고, 다른 대부분의 방법에서는 비교적 우수한 성능을 보였다. 이는 산림이 다른 객체들보다 대비 차이에 민감하게 반응할 수 있음을 시사한다. 또한, 대부분의 모델에서WTHE가 성능 향상에 기여하는 반면, U-Net은WTHE 적용 시 매우 낮은 성능을 기록하였다. 이는 U-Net 기반 모델을 활용해 산림을 분석할 경우 WTHE가 성능 저하를 초래할 수 있음을 보여준다.
Table 7 . Performance of forest by semantic segmentation model for different image enhancement methods on test datasets.
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 73.76 | 72.96 | 77.64 | 79.06 | 78.85 |
PS | 70.90 | 78.36 | 77.45 | 79.39 | 80.11 |
PS + CLAHE | 75.03 | 76.26 | 78.22 | 78.13 | 79.21 |
PS + DSIHE | 73.68 | 75.63 | 78.44 | 79.18 | 79.48 |
PS + RSWHE | 73.84 | 75.36 | 77.73 | 79.28 | 79.45 |
PS + WTHE | 69.99 | 78.07 | 78.34 | 79.53 | 79.75 |
Table 8은 수변 분석 결과를 보여준다. DeepLabV3+, ConvNeXt, Mask2Former에서는 백분위수 스트레칭이 가장 우수한 성능을 보였다. 반면, U-Net과 SegFormer에서는 백분위수 스트레칭이 가장 낮은 성능을 기록하였으며, 특히 U-Net은 다른 방법들에 비해 3 IoU 이상의 큰 성능 차이를 보였다. 또한, DeepLabV3+의 경우 원본과 다른 방법을 적용한 결과의 차이가 3.5 IoU 이상의 차이를 보이며 다른 객체들에 비해 더 큰 차이를 보였다. 이러한 결과는 수변 지역이 대비 변화에 민감하게 반응함을 시사하며, 성능 편차가 적은 SegFormer, ConvNeXt, Mask2Former는 대비 변화에 상대적으로 더 강인한 특성을 가지고 있음을 시사한다.
Table 8 . Performance of waterside by semantic segmentation model for different image enhancement methods on test datasets.
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 81.21 | 83.80 | 90.67 | 90.47 | 90.54 |
PS | 81.00 | 90.83 | 89.93 | 91.02 | 91.32 |
PS + CLAHE | 85.24 | 87.73 | 90.23 | 90.60 | 90.10 |
PS + DSIHE | 84.81 | 89.07 | 90.10 | 90.38 | 91.09 |
PS + RSWHE | 85.73 | 89.07 | 90.54 | 90.49 | 90.99 |
PS + WTHE | 85.72 | 88.79 | 90.07 | 90.14 | 90.56 |
모든 객체에 대한 실험 결과를 종합하면, 최신 모델인 ConvNeXt, Mask2Former, SegFormer는 모든 객체에서 원본 영상의 성능이 다른 기법들과 유사한 수준을 유지하였다. 반면, 전통적인 모델인 U-Net과 DeepLabV3+는 모든 객체에서 원본 영상의 성능이 상대적으로 낮게 나타났다. 이는 최신 모델들이 대비 차이에 더 강인함을 보여주며, 대비 차이가 큰 지역에서 촬영된 위성 영상을 분석할 때 최신 모델을 사용하는 것이 더 균일하고 안정적인 결과를 얻는 데 유리함을 시사한다. 또한, 백분위수 스트레칭은 각 객체에서 가장 높은 성능을 달성하는 경우가 많아 일반적으로 성능이 우수한 기법으로 평가된다. 그러나 객체별로 효과적인 기법에 차이가 있어, 특정 객체를 분석할 때는 본 연구와 같이 최적의 방법을 사전에 검토하고 선택하는 과정이 필요함을 보여준다.
가장 높은 평균 성능을 보이는 Mask2Former와 전통적으로 위성 영상 객체 분석에 널리 사용되는 U-Net을 활용하여 정성적 결과를 비 교하였다. Fig. 5와 6은 각각 Mask2Former와 U-Net의 추론 결과를 보여주며, 시각적 설명을 원활히 하기 위해 원본 대신 백분위수 스트레칭을 적용한 영상을 사용하였다. 각 그림의 분홍색 박스를 통해 원본 및 영상 향상 기법의 결과 차이가 나타나는 부분을 강조하였으며, 이를 바탕으로 각 기법에 대해 정성적인 비교를 수행한다.
Mask2Former의 경우, Table 2의 정량적 결과와 유사하게 정성적 결과에서도 큰 차이가 나타나지 않았다. 건물의 경우, Fig. 5의 첫 번째 행에 강조된 부분에서 볼 수 있듯이 일부 작은 객체를 분할하지 못하는 경우도 있지만, 원본 영상에서 분할되지 않았던 부분을 분할할 수 있으며, 백분위수 스트레칭 기법을 통해 건물을 과대 분할하는 문제도 영상 향상 기법 적용으로 완화할 수 있음을 보여준다. 농경지, 산림, 도로의 경우 Fig. 5의 아래 세 행에서 볼 수 있듯이, 원본 영상에서 분할하지 못한 부분을 영상 향상 기법을 통해 대부분 분할할 수 있었다. 예외적으로 농경지와 산림의 경우 CLAHE를 적용한 결과가 원본 영상 결과와 유사하거나 약간 떨어지는데, 이는 CLAHE가 농경지와 산림 분석에는 효과적이지 않음을 나타낸다.
U-Net의 경우, Table 2의 정량적 결과와 일치하게, 영상 향상 기법을 적용한 결과가 원본 영상보다 정성적으로도 더 우수한 것으로 나타났다. 건물의 경우, Fig. 6의 첫 번째 행에서 강조된 부분에서 볼 수 있듯이, 큰 건물임에도 원본 영상에서는 정확히 분할되지 않지만, 영상 향상 기법을 적용하면 대부분의 경우 더 정확하게 분할된다. 또한, Fig. 6의 두 번째 행의 상단 박스에서는 작은 건물에 대해 원본 영상이 정확히 분할하지 못하는 반면, 영상 향상 기법을 적용하면 보다 정확한 분할이 가능하다. 비닐하우스의 경우, Fig. 6의 두 번째 행 하단박스에서 확인할 수 있듯이, 원본 영상에서 농경지로 잘못 분할된 부분이 영상 향상 기법을 통해 비닐하우스로 올바르게 분할된다. 또한, Fig. 6의 세 번째 행 상단 박스에서는 원본 영상이 건물을 비닐하우스로 잘못 분할했으나, 영상 향상 기법을 적용하면 이를 정확히 건물로 분할할 수 있다. 도로의 경우, Fig. 6의 마지막 행에서 원본 영상이 도로를 비닐하우스로 분할한 반면, 영상 향상 기법을 적용하면 도로를 정상적으로 분할할 수 있다. 영상 향상 기법들이 효과적이었지만, 배경을 잘못 분할하는 경우는 여전히 원본 영상과 유사하게 나타난다. 그럼에도 불구하고, 다른 객체의 경우 원본 영상보다 개선된 결과를 보여주어, U-Net을 활용한 객체 분할에서 영상 향상 기법이 효과적임을 보여준다.
전체적인 분석 결과, 백분위수 스트레칭은 가장 권장되는 영상 향상 기법으로 평가되었으며, 일부 모델에서는 RSWHE가 효과적인 대안으로 나타났다. 객체별로도 백분위수 스트레칭이 대체로 우수한 성능을 보였으나, 특정 모델에서는 기법의 효과가 상이하게 나타났다. 특히, 전통적인 모델(U-Net, DeepLabV3+)의 경우 영상 향상 기법이 성능 향상에 중요한 역할을 한 반면, 최신 모델(SegFormer, ConvNeXt, Mask2Former)에서는 성능 향상이 상대적으로 제한적인 경향을 보였다. 이러한 결과는 모델과 객체마다 특성이 서로 다르기 때문에 발생한 것으로 분석된다. 따라서, 모델 및 객체에 최적화된 영상 향상 기법을 선정하기 위해서는 본 연구와 같이 분석 과정을 거칠 필요가 있음을 시사한다
본 연구에서는 KOMPSAT-3A 위성 데이터셋을 활용하여 5가지 영상 향상 기법이 semantic segmentation 작업에 미치는 영향을 분석하였다. 분석을 위해 5개의 semantic segmentation 모델에 각 기법을 적용해, 성능을 평가했다. 실험 결과, 6개의 공간 객체 전체를 고려한 mIoU 기준으로는 백분위수 스트레칭 또는 RSWHE 기법이 일반적으로 좋은 성능을 보였다. 특히, 도시 분석에서 중요한 건물과 도로객체에 대해 각각 RSWHE와 백분위수 스트레칭 기법이 높은 성능을 달성하는 것으로 나타났다. 반면, 각 모델에서 효과적인 영상 향상 기법은 차이가 있었으며, 객체에 따라 그 효과도 다르게 나타나기 때문에 모든 영상에 동일한 기법을 적용하는 것만으로는 성능 향상에 한계가 있을 수 있다. 또한, 본 연구는 KOMPSAT-3A 위성 영상을 대상으로 분석을 진행했기 때문에, 다른 위성에서는 효과적인 영상 향상 기법이 달라질 가능성이 있다. 이러한 결과는 효과적인 기법을 선정하기 위해서는 본 연구와 같이 분석하는 과정이 필요함을 시사한다. 하지만 본 연구는 분석하고자 하는 모델 및 기법이 많을수록 시간과 컴퓨팅 자원이 소모가 증가한다는 한계가 존재한다. 따라서 각 위성 영상의 히스토그램에 최적화된 효과적인 영상 처리 기법이나 학습과정에서 최적화된 영상을 생성할 수 있는 원스테이지(OneStage) 모델에 대한 심층적인 연구가 필요하다.
Table 1 . Hyperparameters for training each semantic segmentation model.
Model | Batch size | Iteration | Optimizer | Learning rate | Loss function |
---|---|---|---|---|---|
U-Net | 2 | 160,000 | SGD | 1e-2 | Cross Entropy |
DeepLabV3+ | 2 | 80,000 | SGD | 1e-2 | Cross Entropy |
SegFormer | 1 | 160,000 | SGD | 1e-2 | Cross Entropy |
ConvNeXt + UperNet | 2 | 160,000 | AdamW | 1e-4 | Cross Entropy |
Mask2Former | 1 | 160,000 | AdamW | 1e-4 | Cross Entropy, Dice |
본 연구는 과학기술정보통신부의 재원으로 한국연구재단 “위성정보 빅데이터 활용 지원체계 개발사업(RS-2022-00165154)”의 지원을 받아 수행하였습니다.
No potential conflict of interest relevant to this article was reported.
Table 1 . Hyperparameters for training each semantic segmentation model.
Model | Batch size | Iteration | Optimizer | Learning rate | Loss function |
---|---|---|---|---|---|
U-Net | 2 | 160,000 | SGD | 1e-2 | Cross Entropy |
DeepLabV3+ | 2 | 80,000 | SGD | 1e-2 | Cross Entropy |
SegFormer | 1 | 160,000 | SGD | 1e-2 | Cross Entropy |
ConvNeXt + UperNet | 2 | 160,000 | AdamW | 1e-4 | Cross Entropy |
Mask2Former | 1 | 160,000 | AdamW | 1e-4 | Cross Entropy, Dice |
Table 2 . Performance by semantic segmentation model for each image enhancement method on test datasets.
Method | Semantic segmentation model (mIoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 73.58 | 76.82 | 79.44 | 81.05 | 80.93 |
PS | 75.00 | 79.93 | 79.64 | 81.13 | 81.35 |
CLAHE | 74.74 | 77.82 | 79.33 | 80.44 | 80.63 |
PS + CLAHE | 75.97 | 78.97 | 79.55 | 80.68 | 80.95 |
PS + DSIHE | 75.80 | 78.69 | 79.68 | 80.69 | 81.04 |
PS + RSWHE | 76.12 | 78.49 | 80.10 | 81.00 | 81.14 |
PS + WTHE | 75.46 | 79.10 | 79.81 | 80.96 | 81.08 |
PS: percentile stretching..
Table 3 . Performance of building by semantic segmentation model for different image enhancement methods on test datasets.
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 72.24 | 75.96 | 77.56 | 78.75 | 79.18 |
PS | 75.87 | 76.98 | 76.82 | 79.26 | 79.33 |
PS + CLAHE | 75.96 | 76.80 | 77.53 | 79.23 | 79.57 |
PS + DSIHE | 75.69 | 76.55 | 77.60 | 78.75 | 78.71 |
PS + RSWHE | 76.42 | 75.81 | 78.38 | 79.69 | 79.36 |
PS + WTHE | 76.04 | 76.23 | 78.16 | 79.05 | 79.21 |
Table 4 . Performance of road by semantic segmentation model for different image enhancement methods on test datasets.
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 67.54 | 72.64 | 74.28 | 75.6 | 75.82 |
PS | 71.76 | 73.93 | 73.71 | 75.78 | 75.85 |
PS + CLAHE | 69.88 | 74.13 | 74.08 | 75.42 | 75.79 |
PS + DSIHE | 70.76 | 73.69 | 73.87 | 75.79 | 75.57 |
PS + RSWHE | 71.12 | 73.01 | 74.59 | 75.37 | 75.57 |
PS + WTHE | 70.39 | 73.22 | 74.11 | 75.42 | 75.80 |
Table 5 . Performance of plastic house by semantic segmentation model for different image enhancement methods on test datasets.
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 65.26 | 71.97 | 73.67 | 77.73 | 77.14 |
PS | 68.58 | 75.39 | 75.93 | 77.03 | 77.30 |
PS + CLAHE | 67.66 | 74.88 | 73.05 | 76.01 | 76.85 |
PS + DSIHE | 68.18 | 74.14 | 74.52 | 75.69 | 77.04 |
PS + RSWHE | 67.68 | 73.36 | 75.27 | 76.69 | 77.29 |
PS + WTHE | 68.69 | 74.31 | 74.19 | 77.10 | 77.19 |
Table 6 . Performance of farmland by semantic segmentation model for different image enhancement methods on test datasets.
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 73.01 | 77.48 | 78.62 | 80.52 | 80.04 |
PS | 74.48 | 79.70 | 80.01 | 80.38 | 80.24 |
PS + CLAHE | 75.22 | 78.89 | 79.53 | 80.52 | 80.03 |
PS + DSIHE | 74.79 | 78.74 | 79.11 | 80.00 | 80.21 |
PS + RSWHE | 75.05 | 79.18 | 79.94 | 80.34 | 80.23 |
PS + WTHE | 75.29 | 78.69 | 79.55 | 80.14 | 79.89 |
Table 7 . Performance of forest by semantic segmentation model for different image enhancement methods on test datasets.
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 73.76 | 72.96 | 77.64 | 79.06 | 78.85 |
PS | 70.90 | 78.36 | 77.45 | 79.39 | 80.11 |
PS + CLAHE | 75.03 | 76.26 | 78.22 | 78.13 | 79.21 |
PS + DSIHE | 73.68 | 75.63 | 78.44 | 79.18 | 79.48 |
PS + RSWHE | 73.84 | 75.36 | 77.73 | 79.28 | 79.45 |
PS + WTHE | 69.99 | 78.07 | 78.34 | 79.53 | 79.75 |
Table 8 . Performance of waterside by semantic segmentation model for different image enhancement methods on test datasets.
Method | Semantic segmentation model (IoU) | ||||
---|---|---|---|---|---|
U-Net | DeepLabV3+ | SegFormer | ConvNeXt + UperNet | Mask2Former | |
Original | 81.21 | 83.80 | 90.67 | 90.47 | 90.54 |
PS | 81.00 | 90.83 | 89.93 | 91.02 | 91.32 |
PS + CLAHE | 85.24 | 87.73 | 90.23 | 90.60 | 90.10 |
PS + DSIHE | 84.81 | 89.07 | 90.10 | 90.38 | 91.09 |
PS + RSWHE | 85.73 | 89.07 | 90.54 | 90.49 | 90.99 |
PS + WTHE | 85.72 | 88.79 | 90.07 | 90.14 | 90.56 |
Jae Young Chang, Kwan-Young Oh, Sun-Gu Lee
Korean J. Remote Sens. 2024; 40(6): 1397-1408Rogelio Ruzcko Tobias, Sejeong Bae, Hwanhee Cho, Jungho Im
Korean J. Remote Sens. 2024; 40(6): 1505-1521