Korean J. Remote Sens. 2024; 40(6): 895-906
Published online: December 31, 2024
https://doi.org/10.7780/kjrs.2024.40.6.1.2
© Korean Society of Remote Sensing
백태웅1, 안영만2, 예철수3*
1극동대학교 AI컴퓨터공학과 석사과정생
2극동대학교 AI컴퓨터공학과 박사수료생
3극동대학교 AI컴퓨터공학과 교수
Correspondence to : Chul-Soo Ye
E-mail: csye@kdu.ac.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Semantic image segmentation techniques have recently gained widespread adoption in the field of remote sensing for tasks such as classifying surface properties and extracting specific objects. The performance of semantic image segmentation is influenced not only by the choice of deep learning model but also by the configuration of key hyperparameters, including learning rate and batch size. Among these hyperparameters, the batch size is typically set to a larger value to improve model performance. However, since the processing capacity of a typical deep learning system’s graphics processing unit (GPU) is limited, selecting an appropriate batch size is necessary. This paper investigates the impact of batch size on building detection performance in deep learning systems for semantic image segmentation using satellite and aerial imagery. For the performance analysis, representative models for semantic image segmentation, including UNet, ResUNet, DeepResUNet, and CBAM-DRUNet, were used as baseline models. Additionally, transfer learning models such as UNet-VGG19, UNet-ResNet50, and CBAM-DRUNet-VGG19 were incorporated for comparison. The training datasets used in this study included the WHU and INRIA datasets, which are commonly used for semantic image segmentation tasks, as well as the Kompsat-3A dataset. The experimental results revealed that a batch size of 2 or larger led to an improvement in F1 scores across all models and datasets. For the WHU dataset, the smallest of the datasets, the F1 score initially increased with batch size, but after reaching a certain threshold, it began to decline, except for the CBAM-DRUNet-VGG19 model. In contrast, for the INRIA dataset, which is approximately 1.5 times larger than WHU, transfer learning models maintained relatively stable F1 scores as the batch size increased, while other models showed a similar trend of increasing F1 scores followed by a decrease. In the case of the Kompsat-3A datasets, which are 4 to 5 times larger than the WHU dataset, all models showed a substantial increase in F1 score when the batch size was set to 2. Beyond this point, F1 scores stabilized without further significant improvements. In terms of training time, increasing the batch size generally resulted in reduced training time for all models. Therefore, when the training dataset is sufficiently large, setting the batch size to 2 is already sufficient to achieve significant improvements in F1 score accuracy. Furthermore, setting the batch size to a value greater than 2 may be advantageous in terms of further reducing training time, provided that the GPU capacity of the deep learning system is sufficient to handle the larger batch size.
Keywords Semantic image segmentation, Batch size, UNet, VGG19, CBAM-DRUNet-VGG19
딥러닝의 등장과 함께 최근에는 딥러닝을 이용한 다양한 영상 분석방법이 널리 쓰이고 있다. Krizhevsky et al. (2017)의 연구에서는 딥러닝을 이용한 영상 분류 방법이 제시되었으며, Ronneberger et al. (2015)은 딥러닝을 이용한 영상 분할 기법을 제안하였다. 또한, He et al. (2017)과 Redmon et al. (2016)의 연구에서는 객체 탐지 방법이 소개되 었다. 그중에서도 원격탐사 분야에서는 합성곱 신경망(convolutional neural network, CNN)을 이용한 의미론적 영상 분할(semantic image segmentation)의 연구가 활발하게 진행되었다(Luo et al., 2021; Erdem and Avdan, 2020; Zhang et al., 2019). 의미론적 영상 분할에 사용되는 대표적인 딥러닝 모델이라 할 수 있는 UNet 모델(Ronneberger et al., 2015)은 추상적 특징을 추출하는 다운 샘플링(down sampling) 경로와 추출한 추상적 특징을 원래 해상도로 다시 증가시키는 업 샘플링(up sampling) 경로로 구성된다. 다운 샘플링 경로에서 추출된 특징맵과 업 샘플링 경로에서 복원된 특징맵을 결합하여 정확한 최종 분할맵을 생성한다. UNet 모델과 같은 딥러닝 모델을 사용하여 의미론적 영상 분할에서는 다양한 매개변수가 딥러닝 모델의 성능에 영향을 미친다.
배치 크기(batch size)는 학습률(learning rate)과 같이 일반적으로 실험 수행자의 경험에 기초하여 딥러닝 시스템의 처리 성능을 고려하여 결정된다. Kandel and Castelli (2020)의 연구 결과에 따르면, 배치 크기를 2의 거듭제곱으로 설정하면 graphics processing unit (GPU)의 성능을 가장 효율적으로 활용할 수 있다. 또한 이들은 배치 크기가 많은 매개변수 중에 조정해야 하는 주요 매개변수이며, 배치 크기가 모델 학습 시간에 영향을 미친다고 판단하였다. 뿐만 아니라 Radiuk (2017)은 배치 크기가 클수록 정확도가 향상되며 배치 크기가 CNN 성능에 큰 영향을 미친다는 연구 결과를 발표하였다. Masters and Luschi (2018)는 배치 크기가 2에서 32 사이일 때 최상의 결과를 얻을 수 있으며, 작은 배치 크기가 큰 배치 크기보다 더 안정적인 성능을 보인다는 연구 결과를 소개하였다. 이러한 연구 결과들은 배치 크기가 학습률과 함께 딥러닝 모델의 성능에 큰 영향을 미치는 매개변수임을 보여준다.
최근에는 GPU의 성능 향상으로 인해 GPU의 메모리가 증가하면서 고해상도의 영상을 활용한 대규모의 데이터셋에 더 큰 배치 크기를 적용할 수 있게 되었다(Sevilla et al., 2022). 그러나 항공 영상과 위성 영상으로 대규모의 학습 데이터셋을 구축하고 고해상도의 많은 수의 데이터를 학습시키는 것은 성능 향상에 도움이 되지만 대규모의 학습 데이터셋을 구축하는 것은 데이터셋 생성 비용 측면에서 현실적으로 쉽지 않다. 이와 관련하여 Ye et al. (2023)의 연구 결과에 따르면 학습 데이터셋의 크기가 제한적인 경우에도 전이 학습(transfer learning)을 사용하면 더 높은 성능을 얻을 수 있다. 전이 학습이란 대용량의 데이터셋으로 미리 학습된 사전 학습 모델(pretrainedmodel)의 구조와 가중치를 다른 데이터셋에 적용하여 성능을 향상시키는 방법이다. 대표적인 대용량 데이터셋으로는 ImageNet이 있으며, ImageNet은 1천5백만 개 이상의 고해상도 영상으로 구성되어 있다. ImageNet Large-Scale Visual Recognition에서 사용된 ImageNet 데이터셋은 총 120만 개의 학습 영상, 5만 개의 검증 영상, 15만 개의 테스트 영상을 포함한다(Krizhevsky et al., 2017).
본 논문에서는 고해상도의 항공 영상 데이터셋과 위성 영상 데이터셋에서 배치 크기에 따른 F1 score의 향상을 분석하였다. 의미론적 영상 분할에서 대표적인 딥러닝 모델인 UNet 모델을 포함하여 다양한 UNet 기반의 건물 분할 딥러닝 모델을 이용하여 배치 크기가 F1 score에 미치는 영향을 분석하였다. Kandel and Castelli (2020) 및 Radiuk (2017)의 연구는 주로 CNN 및 GPU 효율성을 중심으로 배치 크기의 중요성을 다룬 반면, 본 연구는 UNet 기반의 딥러닝 모델을 통한 건물 분할의 성능 향상 관점에서 배치 크기 문제를 다루었다. 또한Masters and Luschi (2018)의 연구는 배치 크기와 안정성에 주로 중점을 두었으나 본 연구는 학습 데이터셋의 크기에 따른 학습 시간과 F1 score의 변화에 대한 분석을 수행하였다.
2장에서는 배치 크기와 UNet 기반의 딥러닝 모델에 대해 설명하고 데이터셋 및 성능 평가 방법에 대해서 다룬다. 3장에서는 위성 영상 데이터셋과 항공 영상 데이터셋을 이용하여 UNet 모델과 UNet 기반 모델들의 성능을 분석한다. 마지막으로 4장에서는 결론을 제시 한다.
딥러닝에서 배치는 가중치를 업데이트하기 위해 사용되는 학습 데이터의 묶음을 의미한다. Fig. 1(a)와 같이 10개의 학습 데이터를 50 Epoch 동안 사용하고 배치 크기 1로 설정하여 학습을 진행하면 1 Epoch에서 10번의 가중치 업데이트가 이루어지며 총 500번의 학습이 이루어진다. 반면 Fig. 1(b)와 같이 배치 크기를 2로 설정하면 1 Epoch에서 5번의 가중치 업데이트가 이루어지며 총 250번의 학습이 진행된다. 이처럼 배치 크기가 커질수록 학습 횟수가 감소하여 학습 시간이 단축된다.
본 논문에서는 건물 분할 성능을 평가하기 위해 Table 1과 같이 UNet 기반의 총 7가지의 모델을 사용한다. UNet 기반의 모델 중에서 전이 학습을 사용하지 않는 기본 모델로는 ResUNet 모델(Zhang et al., 2017), DeepResUNet 모델(Yi et al., 2019), CBAM-DRUNet 모델(Ye et al., 2022)을 사용한다. 반면, 전이 학습을 사용한 모델로는 ImageNet을 이용하여 사전 학습된 VGG19 모델(Simonyan and Zisserman, 2014)과ResNet50 모델(He et al., 2016)을 각각 모델의 인코더(encoder)로 활용한UNet-VGG19 모델과UNet-ResNet50 모델을 사용한다. 또한 CBAM-DRUNet 모델의 인코더를 사전 학습된 VGG19 모델로 활용한 CBAM-DRUNet-VGG19 모델(Ye et al., 2023)을 사용한다.
Table 1 The types of deep learning models used in the experiment
Non-transfer learning model | Transfer learning model |
---|---|
UNet ResUNet DeepResUNet CBAM-DRUNet | UNet-VGG19 UNet-ResNet50 CBAM-DRUNet-VGG19 |
본 논문에서는 모델별 배치 크기에 따른 성능을 평가하기 위해 Fig. 2와 같이 항공 영상으로 만들어진 WHU 데이터셋(Ji et al., 2019)과 INRIA 데이터셋(Maggiori et al., 2017) 그리고 Kompsat-3A 위성 영상 데이터셋을 사용하였다. 세 가지 데이터셋의 입력 영상은 128 × 128 크기로 설정하였다. WHU데이터셋은 학습 데이터 4,736개와 테스트 데이터 2,416개로 구성되었으며 공간해상도는 0.3 m이며, 고층 및 저층 건물이 다양하게 분포된 건물 밀집 지역을 포함한다. INRIA 데이터셋은 학습 데이터 7,200개와 테스트 데이터 800개로 구성되었다. WHU데이터셋과 동일한 공간 해상도 0.3 m를 가지며, 도시 지 역과 교외 지역이 섞여 있는 다양한 지리적 환경을 포함한다. Kompsat-3A 데이터셋은 공간 해상도 0.55 m를 가지며 인천 지역을 촬영한 Kompsat-3AA데이터셋과 대전 및 세종 지역을 촬영한 Kompsat-3A B 데이터셋으로 구성되었다. Kompsat-3AA데이터셋은 학습 데이터 18,736개와 테스트 데이터 4,688개, Kompsat-3A B 데이터셋은 23,584개의 학습 데이터와 5,896개의 테스트 데이터로 구성되었다. WHU 데이터셋 크기를 기준으로 INRIA 데이터셋 크기는 약 1.5배 크며, Kompsat-3AA와 B 데이터셋의 크기는 약 4배와 5배 큰 규모의 데이터셋이다.
본 실험에서 사용된 하이퍼파라미터(hyperparameter)는 학습률을 0.0001로 고정하였으며, 배치 크기는 초기 실험에서 배치 크기 32 이상으로 설정할 경우, GPU의 처리 용량을 초과하여 학습이 중단되는 현상을 확인하였다. 따라서 초기 실험 결과와 Kandel and Castelli (2020)의 연구 결과를 참고하여 배치 크기는 2의 거듭제곱인 1, 2, 4, 8, 16을 사용하였다. 반복 학습 횟수(Epoch)는 50으로 설정하였고, optimizer는 Adam을, 손실 함수는 binary cross entropy로 설정하여 실험을 진행하였다. 성능 평가는 모델이 충분한 학습 과정을 거쳐서 수렴된 상태를 고려하고자 Epoch 41부터 50까지의 F1 score의 중앙값을 기준으로 하였다. F1 score는 정밀도(Precision)와 재현율(Recall)을 동시에 고려하는 성능 지표로, 식(1)을 통해 계산된다. 정밀도와 재현율은 각각 식(2)와 (3)으로 계산되며, 식(2)와 (3)에서 TP, FP, FN은 혼동행렬(confusion matrix)인 Table 2에서 표시된 True Positive (TP), False Negative (FN), False Positive (FP)를 의미한다.
Table 2 Confusion matrix for evaluating the performance of deep learning models
Inference result | |||
---|---|---|---|
True | False | ||
Ground truth | True | True Positive (TP) | False Negative (FN) |
False | False Positive (FP) | True Negative (TN) |
WHU데이터셋을 이용한 모델별 정확도 평가 결과는 Table 3과 같다. Table 3은 모델별로 다섯 가지 배치 크기를 적용한 F1 score 변화를 보여주며, F1 score가 가장 높은 모델은 밑줄로 강조하였다. 또한, 모델학습이 시작하여 종료될 때까지 소요된 시간도 함께 측정하였다. WHU데이터셋을 이용한 결과에서 CBAM-DRUNet 모델이 배치 크기 2에서 F1 score 0.9226으로 가장 우수한 성능을 보였다. 전이 학습을 적용한 모델과 적용하지 않은 모델을 비교한 결과, 전이 학습의 유무에 따른 F1 score의 차이는 크지 않았다. Fig. 3은 WHU 데이터셋에 대한 모델별 배치 크기에 따른 F1 Score의 변화를 나타낸다. 모델별로 배치 크기 1인 경우와 다른 배치 크기인 경우를 비교해 보면, F1 score의 차이가 미미한 경우가 많았다. 배치 크기 2 이상에서는 CBAM-DRUNet 모델과 CBAM-DRUNet-VGG19 모델이 우수한 F1 score를 보였다. 배치 크기 1과 배치 크기 2 이상을 비교했을 때 배치 크기가 증가함에 따라 UNet-VGG19 모델은 F1 score가 감소하지만, CBAM-DRUNet-VGG19 모델은 F1 score를 일정하게 유지하는 경향을 보였다. 나머지 다섯 가지 모델은 배치 크기가 증가함에 따라 F1 score가 약간 상승한 후 감소하는 경향을 보였다.
Table 3 Comparison of F1 scores based on batch size for different deep learning models on the WHU dataset
Model \ Batch size | 1 | 2 | 4 | 8 | 16 |
---|---|---|---|---|---|
UNet | 0.9048 | 0.9079 | 0.9104M | 0.9025 | 0.8956 |
ResUNet | 0.9012 | 0.9044 | 0.9007 | 0.8965 | 0.8883 |
DeepResUNet | 0.8887 | 0.9121 | 0.9143 | 0.9104 | 0.8986 |
CBAM-DRUNet | 0.9092 | 0.9226 | 0.9222 | 0.9188 | 0.9174 |
UNet-ResNet50 | 0.8830 | 0.8977 | 0.8970 | 0.8945 | 0.8877 |
UNet-VGG19 | 0.9104 | 0.9042 | 0.9001 | 0.9047 | 0.9029 |
CBAM-DRUNet-VGG19 | 0.9046 | 0.9166 | 0.9175 | 0.9180 | 0.9177 |
Table 4는 INRIA 데이터셋에 대한 각 모델의 배치 크기에 따른 F1 score의 결과이다. 근소한 차이지만 배치 크기 16에서 CBAMDRUNet-VGG19 모델이 F1 score 0.8852로 가장 우수한 성능을 보였다. 배치 크기 2 이상부터는 F1 score가 전반적으로 우수하며, 전이 학습을 적용한 모델과 그렇지 않은 모델 간의 F1 score 차이가 크지 않음을 확인할 수 있다. 그러나 전이 학습을 적용한 UNet-VGG19, UNet-ResNet50, CBAM-DRUNet-VGG19 모델은 전이 학습을 적용하지 않은 모델들과 비교했을 때 전반적으로 더 높은 F1 score를 보이며, 특히 더 큰 배치 크기에서 더 우수한 F1 score를 보여준다.
Table 4 Comparison of F1 scores based on batch size for different deep learning models on the INRIA dataset
Model \ Batch size | 1 | 2 | 4 | 8 | 16 |
---|---|---|---|---|---|
UNet | 0.7749 | 0.8619 | 0.8653 | 0.8394 | 0.8254 |
ResUNet | 0.7795 | 0.8297 | 0.8253 | 0.8214 | 0.8076 |
DeepResUNet | 0.8023 | 0.8602 | 0.8655 | 0.8533 | 0.8472 |
CBAM-DRUNet | 0.7968 | 0.8680 | 0.8738 | 0.8701 | 0.8732 |
UNet-ResNet50 | 0.8125 | 0.8576 | 0.8669 | 0.8698 | 0.8730 |
UNet-VGG19 | 0.7269 | 0.8718 | 0.8764 | 0.8771 | 0.8803 |
CBAM-DRUNet-VGG19 | 0.8421 | 0.8738 | 0.8797 | 0.8826 | 0.8852 |
Fig. 4는 INRIA 데이터셋에 대해 모델별 배치 크기에 따른 F1 score 변화를 보여준다. 배치 크기 1에서는 다른 배치 크기와 비교하여 F1 score가 낮게 나타나며, 배치 크기 2 이상에서는 F1 score가 비교적 높은 수준을 유지한다. 전이 학습을 적용한 UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델은 특히 우수한 F1 score를 보여준다. 전이 학습을 적용한 세 가지 모델인 UNet-ResNet50, UNet-VGG19, CBAM-DRUNet-VGG19은 배치 크기가 커질수록 F1 score가 일정하게 증가하는 결과를 보인다. 반면, 전이 학습을 적용하지 않은 모델들은 F1 score가 증가하다가 감소하는 경향을 보인다.
Fig. 5는WHU 데이터셋에서 각 모델의 배치 크기별 학습 시간을 나타낸다. 모든 모델에서 배치 크기가 증가함에 따라 학습 시간이 단축되는 경향을 보이며, ResUNet 모델의 학습 시간이 가장 짧다. 반면, DeepResUNet 모델과CBAM-DRUNet 모델, CBAM-DRUNet-VGG19 모델은 다른 모델들에 비해 학습 시간이 더 길게 소요되는 것을 볼 수 있다. 특히 배치 크기 1에서는DeepResUNet 모델의 학습 시간이 가장 길었으며, CBAM-DRUNet 모델과CBAM-DRUNet-VGG19 모델과 비교했을 때도 DeepResUNet 모델의 학습 시간이 더 오래 걸리는 경향을 보였다. 그러나 배치 크기 8 이상에서는 오히려 CBAM-DRUNet 모델과CBAM-DRUNet-VGG19 모델이DeepResUNet 모델보다 학습 소요 시간이 더 긴 결과를 보였다. 배치 크기 1과 비교했을 때, 배치 크기 16에서 가장 학습 시간이 크게 감소한 모델은UNet-ResNet50으로, 배치 크기 1에 비해 15.8%의 수준으로 학습 시간 감소를 보였다. 반면, 배치 크기 1과 비교했을 때, 배치 크기 16에서 학습 시간이 가장 적게 감소한 모델은 CBAM-DRUNet-VGG19로, 33.02% 수준으로 학습 시간이 감소하였다.
Fig. 6은 INRIA 데이터셋에 대한 각 모델의 배치 크기별 학습 시간을 나타낸다. WHU 데이터셋과 마찬가지로, 모든 모델에서 배치 크기가 증가할수록 학습 시간이 단축되는 경향을 보인다. 배치 크기 1과 비교했을 때, 배치 크기 16에서 학습 시간이 가장 크게 감소한 모델은UNet-ResNet50으로, 배치 크기 1에 비해 배치 크기 16에서 학습 시간이 11.24% 수준으로 감소하였으며, CBAM-DRUNet-VGG19 모델의 학습 시간은 26.02%로 가장 작게 감소하였다.
항공 영상 데이터셋 외에 두 가지 Kompsat-3A 위성 데이터셋을 추가로 사용하여 실험을 진행하였다. 그중 하나는 인천 지역의 Kompsat-3AA데이터셋이며, 그 결과는 Table 5와 같다. 배치 크기 2 이상에서 모든 모델이 F1 score가 증가하는 결과를 보였다. 배치 크기 8에서 CBAM-DRUNet 모델의 F1 score가 0.8407로 가장 우수한 성능을 보였다. Fig. 7은 Kompsat-3AA데이터셋에 대한 모델별 배치 크기에 따른 F1 score의 변화를 보여준다. 모든 모델이 배치 크기 2일 때 F1 score가 크게 향상되었으며, 특히 전이학습을 사용하지 않는 모델들의 F1 score가 크게 증가하는 경향을 보였다. 배치 크기 2 이상에서는 배치 크기가 증가하여도 F1 score의 값의 변동이 미미하고 일정한 범위 내에서 수렴하는 경향을 보였다.
Table 5 Comparison of F1 scores based on batch size for different deep learning models on the Kompsat-3A A dataset
Model \ Batch size | 1 | 2 | 4 | 8 | 16 |
---|---|---|---|---|---|
UNet | 0.3860 | 0.7930 | 0.8263 | 0.8279 | 0.8153 |
ResUNet | 0.6433 | 0.7895 | 0.8010 | 0.7988 | 0.7988 |
DeepResUNet | 0.7002 | 0.8217 | 0.8178 | 0.8162 | 0.8101 |
CBAM-DRUNet | 0.5199 | 0.8323 | 0.8344 | 0.8407 | 0.8321 |
UNet-ResNet50 | 0.5676 | 0.8183 | 0.8263 | 0.8305 | 0.8315 |
UNet-VGG19 | 0.7927 | 0.8337 | 0.8381 | 0.8392 | 0.8389 |
CBAM-DRUNet-VGG19 | 0.8020 | 0.8350 | 0.8340 | 0.8402 | 0.8388 |
Table 6은 Kompsat-3A B 데이터셋에 대한 각 모델의 배치 크기별 F1 score의 결과를 나타낸다. Kompsat-3AA데이터셋과 유사하게 배치 크기 2 이상에서 F1 score가 많이 증가하였다. Kompsat-3AB데이터셋에서 가장 우수한 F1 score를 기록한 모델은 CBAM-DRUNet-VGG19 모델이며, 배치 크기 16에서 0.8466의 F1 score를 보여주었다. Fig. 8은 Kompsat-3AB데이터셋에 대한 모델의 배치 크기별 F1 score 변화를 보여준다. 배치 크기 2 이상부터는 F1 score가 많이 향상되었으며 대부분의 모델에서 배치 크기 4 이상부터는 F1 score가 일정한 값을 유지하는 결과를 보인다.
Table 6 Comparison of F1 scores based on batch size for different deep learning models on the Kompsat-3A B dataset
Model \ Batch size | 1 | 2 | 4 | 8 | 16 |
---|---|---|---|---|---|
UNet | 0.4488 | 0.7758 | 0.8292 | 0.8307 | 0.8270 |
ResUNet | 0.6085 | 0.7898 | 0.8099 | 0.8128 | 0.8111 |
DeepResUNet | 0.7042 | 0.8239 | 0.8343 | 0.8348 | 0.8305 |
CBAM-DRUNet | 0.5652 | 0.8283 | 0.8449 | 0.8455 | 0.8432 |
UNet-ResNet50 | 0.6255 | 0.8174 | 0.8310 | 0.8373 | 0.8361 |
UNet-VGG19 | 0.7434 | 0.8332 | 0.8433 | 0.8444 | 0.8450 |
CBAM-DRUNet-VGG19 | 0.6690 | 0.8412 | 0.8420 | 0.8454 | 0.8466 |
Fig. 9는 Kompsat-3A A 데이터셋에 대한 각 모델의 배치 크기별 학습 시간을 보여준다. 모든 모델에서 배치 크기가 증가할수록 학습 시간이 단축되는 경향을 보였다. ResUNet 모델이 가장 짧은 학습 시간을 기록하였으며, DeepResUNet, CBAM-DRUNet 그리고 CBAMDRUNet-VGG19 모델의 학습 시간이 다른 모델들에 비해 더 소요되는 결과를 보였다. 배치 크기 1과 비교했을 때, 배치 크기 16에서 가장 학습 시간이 많이 감소한 모델은 UNet-ResNet50으로 배치 크기 1과 비교하여 배치 크기 16에서 12.26% 수준의 감소율을 보였다. 반면, 학습 시간이 가장 작게 감소한 모델은 CBAM-DRUNet-VGG19로 배치 크기 1과 비교하여 배치 크기 16에서 25.52% 수준의 감소율을 보였다.
Fig. 10은 Kompsat-3AB 데이터셋에 대한 각 모델의 배치 크기 별 학습 시간에 대한 결과를 보여준다. Kompsat-3AA데이터셋과 마찬가지로 모든 모델에서 배치 크기가 증가할수록 학습 시간이 단축되는 경향을 보였다. 배치 크기 1과 비교했을 때, 배치 크기 16에서 가장 학습 시간이 많이 감소한 모델은 UNet-ResNet50으로, 배치 크기 1에 비해 배치 크기 16에서 13.82% 수준의 감소율을 보였으며, 가장 적게 감소한 모델은 CBAM-DRUNet-VGG19로, 배치크기 1과 비교하여 배치크기 16에서 29.47% 수준의 감소율을 보였다.
본 논문에서는 원격탐사 영상에서 의미론적 영상 분할을 위한 딥러닝 시스템에서 배치 크기가 건물 검출 성능에 미치는 영향을 분석하기 위해WHU, INRIA, Kompsat-3A데이터셋을 사용하여, UNet 기반의 일곱 가지 딥러닝 모델을 대상으로 다섯 가지 배치 크기(1, 2, 4, 8, 16)에 따른 F1 score의 성능 변화와 수행 시간의 변화를 비교하였다.
데이터셋크기가제일작은WHU데이터셋의경우CBAM-DRUNet-VGG19 모델을 제외하고 나머지 모델들의 경우 배치 크기가 증가할수록 F1 score가 증가하다 감소하는 경향을 보였다. WHU 데이터셋 크기보다 약 1.5배 큰 INRIA 데이터셋에서는 전이학습 모델들은 배치 크기가 증가할 때 F1 score가 일정한 수준을 유지했지만, 그 외 모델들은 F1 score가 증가하다 감소하는 경향을 보였다. WHU 데이터셋 크기보다 4배, 5배 큰 두 종류의 Kompsat-3A 데이터셋의 경우에는 배치 크기가 2일 때 모든 모델의 F1 score가 크게 증가하고 2보다 큰 경우에는 F1 score의 추가적인 큰 상승이 없이 일정한 수준의 값으로 수렴하는 결과를 보였다. 각 데이터셋을 이용한 실험에서 배치 크기가 증가할수록 모든 모델들의 학습 시간이 일정 수준으로 단축되는 경향을 보였다.
실험 결과로부터 학습 데이터셋의 크기가 충분히 큰 경우에는 배치 크기를 2로 설정하는 정도만으로도 배치 크기 증가에 따른 성능 향상 정도를 충분히 달성할 수 있음을 확인하였다. 이는 제한된 GPU 처리 용량을 가진 시스템에서 원격탐사 영상을 이용한 의미론적 영상 분할 시 정확도 향상 측면에서는 배치 크기를 일반적으로 알려진 바와 같이 과도하게 크게 설정할 필요가 없으며, 학습 시간의 단축을 위해서 GPU 처리 용량이 허용하는 한도 내에서 배치 크기를 증가시키는 것이 적절함을 시사한다.
본 연구는 국토교통부/국토교통과학기술진흥원의 지원으로 수행되었음(과제번호: RS-2022-00155763).
No potential conflict of interest relevant to this article was reported.
Korean J. Remote Sens. 2024; 40(6): 895-906
Published online December 31, 2024 https://doi.org/10.7780/kjrs.2024.40.6.1.2
Copyright © Korean Society of Remote Sensing.
백태웅1, 안영만2, 예철수3*
1극동대학교 AI컴퓨터공학과 석사과정생
2극동대학교 AI컴퓨터공학과 박사수료생
3극동대학교 AI컴퓨터공학과 교수
Tae-Woong Baek1 , Young-Man Ahn2 , Chul-Soo Ye3*
1Master Student, Department of AI Computer Engineering, Far East University, Eumseong, Republic of Korea
2PhD Candidate, Department of AI Computer Engineering, Far East University, Eumseong, Republic of Korea
3Professor, Department of AI Computer Engineering, Far East University, Eumseong, Republic of Korea
Correspondence to:Chul-Soo Ye
E-mail: csye@kdu.ac.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Semantic image segmentation techniques have recently gained widespread adoption in the field of remote sensing for tasks such as classifying surface properties and extracting specific objects. The performance of semantic image segmentation is influenced not only by the choice of deep learning model but also by the configuration of key hyperparameters, including learning rate and batch size. Among these hyperparameters, the batch size is typically set to a larger value to improve model performance. However, since the processing capacity of a typical deep learning system’s graphics processing unit (GPU) is limited, selecting an appropriate batch size is necessary. This paper investigates the impact of batch size on building detection performance in deep learning systems for semantic image segmentation using satellite and aerial imagery. For the performance analysis, representative models for semantic image segmentation, including UNet, ResUNet, DeepResUNet, and CBAM-DRUNet, were used as baseline models. Additionally, transfer learning models such as UNet-VGG19, UNet-ResNet50, and CBAM-DRUNet-VGG19 were incorporated for comparison. The training datasets used in this study included the WHU and INRIA datasets, which are commonly used for semantic image segmentation tasks, as well as the Kompsat-3A dataset. The experimental results revealed that a batch size of 2 or larger led to an improvement in F1 scores across all models and datasets. For the WHU dataset, the smallest of the datasets, the F1 score initially increased with batch size, but after reaching a certain threshold, it began to decline, except for the CBAM-DRUNet-VGG19 model. In contrast, for the INRIA dataset, which is approximately 1.5 times larger than WHU, transfer learning models maintained relatively stable F1 scores as the batch size increased, while other models showed a similar trend of increasing F1 scores followed by a decrease. In the case of the Kompsat-3A datasets, which are 4 to 5 times larger than the WHU dataset, all models showed a substantial increase in F1 score when the batch size was set to 2. Beyond this point, F1 scores stabilized without further significant improvements. In terms of training time, increasing the batch size generally resulted in reduced training time for all models. Therefore, when the training dataset is sufficiently large, setting the batch size to 2 is already sufficient to achieve significant improvements in F1 score accuracy. Furthermore, setting the batch size to a value greater than 2 may be advantageous in terms of further reducing training time, provided that the GPU capacity of the deep learning system is sufficient to handle the larger batch size.
Keywords: Semantic image segmentation, Batch size, UNet, VGG19, CBAM-DRUNet-VGG19
딥러닝의 등장과 함께 최근에는 딥러닝을 이용한 다양한 영상 분석방법이 널리 쓰이고 있다. Krizhevsky et al. (2017)의 연구에서는 딥러닝을 이용한 영상 분류 방법이 제시되었으며, Ronneberger et al. (2015)은 딥러닝을 이용한 영상 분할 기법을 제안하였다. 또한, He et al. (2017)과 Redmon et al. (2016)의 연구에서는 객체 탐지 방법이 소개되 었다. 그중에서도 원격탐사 분야에서는 합성곱 신경망(convolutional neural network, CNN)을 이용한 의미론적 영상 분할(semantic image segmentation)의 연구가 활발하게 진행되었다(Luo et al., 2021; Erdem and Avdan, 2020; Zhang et al., 2019). 의미론적 영상 분할에 사용되는 대표적인 딥러닝 모델이라 할 수 있는 UNet 모델(Ronneberger et al., 2015)은 추상적 특징을 추출하는 다운 샘플링(down sampling) 경로와 추출한 추상적 특징을 원래 해상도로 다시 증가시키는 업 샘플링(up sampling) 경로로 구성된다. 다운 샘플링 경로에서 추출된 특징맵과 업 샘플링 경로에서 복원된 특징맵을 결합하여 정확한 최종 분할맵을 생성한다. UNet 모델과 같은 딥러닝 모델을 사용하여 의미론적 영상 분할에서는 다양한 매개변수가 딥러닝 모델의 성능에 영향을 미친다.
배치 크기(batch size)는 학습률(learning rate)과 같이 일반적으로 실험 수행자의 경험에 기초하여 딥러닝 시스템의 처리 성능을 고려하여 결정된다. Kandel and Castelli (2020)의 연구 결과에 따르면, 배치 크기를 2의 거듭제곱으로 설정하면 graphics processing unit (GPU)의 성능을 가장 효율적으로 활용할 수 있다. 또한 이들은 배치 크기가 많은 매개변수 중에 조정해야 하는 주요 매개변수이며, 배치 크기가 모델 학습 시간에 영향을 미친다고 판단하였다. 뿐만 아니라 Radiuk (2017)은 배치 크기가 클수록 정확도가 향상되며 배치 크기가 CNN 성능에 큰 영향을 미친다는 연구 결과를 발표하였다. Masters and Luschi (2018)는 배치 크기가 2에서 32 사이일 때 최상의 결과를 얻을 수 있으며, 작은 배치 크기가 큰 배치 크기보다 더 안정적인 성능을 보인다는 연구 결과를 소개하였다. 이러한 연구 결과들은 배치 크기가 학습률과 함께 딥러닝 모델의 성능에 큰 영향을 미치는 매개변수임을 보여준다.
최근에는 GPU의 성능 향상으로 인해 GPU의 메모리가 증가하면서 고해상도의 영상을 활용한 대규모의 데이터셋에 더 큰 배치 크기를 적용할 수 있게 되었다(Sevilla et al., 2022). 그러나 항공 영상과 위성 영상으로 대규모의 학습 데이터셋을 구축하고 고해상도의 많은 수의 데이터를 학습시키는 것은 성능 향상에 도움이 되지만 대규모의 학습 데이터셋을 구축하는 것은 데이터셋 생성 비용 측면에서 현실적으로 쉽지 않다. 이와 관련하여 Ye et al. (2023)의 연구 결과에 따르면 학습 데이터셋의 크기가 제한적인 경우에도 전이 학습(transfer learning)을 사용하면 더 높은 성능을 얻을 수 있다. 전이 학습이란 대용량의 데이터셋으로 미리 학습된 사전 학습 모델(pretrainedmodel)의 구조와 가중치를 다른 데이터셋에 적용하여 성능을 향상시키는 방법이다. 대표적인 대용량 데이터셋으로는 ImageNet이 있으며, ImageNet은 1천5백만 개 이상의 고해상도 영상으로 구성되어 있다. ImageNet Large-Scale Visual Recognition에서 사용된 ImageNet 데이터셋은 총 120만 개의 학습 영상, 5만 개의 검증 영상, 15만 개의 테스트 영상을 포함한다(Krizhevsky et al., 2017).
본 논문에서는 고해상도의 항공 영상 데이터셋과 위성 영상 데이터셋에서 배치 크기에 따른 F1 score의 향상을 분석하였다. 의미론적 영상 분할에서 대표적인 딥러닝 모델인 UNet 모델을 포함하여 다양한 UNet 기반의 건물 분할 딥러닝 모델을 이용하여 배치 크기가 F1 score에 미치는 영향을 분석하였다. Kandel and Castelli (2020) 및 Radiuk (2017)의 연구는 주로 CNN 및 GPU 효율성을 중심으로 배치 크기의 중요성을 다룬 반면, 본 연구는 UNet 기반의 딥러닝 모델을 통한 건물 분할의 성능 향상 관점에서 배치 크기 문제를 다루었다. 또한Masters and Luschi (2018)의 연구는 배치 크기와 안정성에 주로 중점을 두었으나 본 연구는 학습 데이터셋의 크기에 따른 학습 시간과 F1 score의 변화에 대한 분석을 수행하였다.
2장에서는 배치 크기와 UNet 기반의 딥러닝 모델에 대해 설명하고 데이터셋 및 성능 평가 방법에 대해서 다룬다. 3장에서는 위성 영상 데이터셋과 항공 영상 데이터셋을 이용하여 UNet 모델과 UNet 기반 모델들의 성능을 분석한다. 마지막으로 4장에서는 결론을 제시 한다.
딥러닝에서 배치는 가중치를 업데이트하기 위해 사용되는 학습 데이터의 묶음을 의미한다. Fig. 1(a)와 같이 10개의 학습 데이터를 50 Epoch 동안 사용하고 배치 크기 1로 설정하여 학습을 진행하면 1 Epoch에서 10번의 가중치 업데이트가 이루어지며 총 500번의 학습이 이루어진다. 반면 Fig. 1(b)와 같이 배치 크기를 2로 설정하면 1 Epoch에서 5번의 가중치 업데이트가 이루어지며 총 250번의 학습이 진행된다. 이처럼 배치 크기가 커질수록 학습 횟수가 감소하여 학습 시간이 단축된다.
본 논문에서는 건물 분할 성능을 평가하기 위해 Table 1과 같이 UNet 기반의 총 7가지의 모델을 사용한다. UNet 기반의 모델 중에서 전이 학습을 사용하지 않는 기본 모델로는 ResUNet 모델(Zhang et al., 2017), DeepResUNet 모델(Yi et al., 2019), CBAM-DRUNet 모델(Ye et al., 2022)을 사용한다. 반면, 전이 학습을 사용한 모델로는 ImageNet을 이용하여 사전 학습된 VGG19 모델(Simonyan and Zisserman, 2014)과ResNet50 모델(He et al., 2016)을 각각 모델의 인코더(encoder)로 활용한UNet-VGG19 모델과UNet-ResNet50 모델을 사용한다. 또한 CBAM-DRUNet 모델의 인코더를 사전 학습된 VGG19 모델로 활용한 CBAM-DRUNet-VGG19 모델(Ye et al., 2023)을 사용한다.
Table 1 . The types of deep learning models used in the experiment.
Non-transfer learning model | Transfer learning model |
---|---|
UNet ResUNet DeepResUNet CBAM-DRUNet | UNet-VGG19 UNet-ResNet50 CBAM-DRUNet-VGG19 |
본 논문에서는 모델별 배치 크기에 따른 성능을 평가하기 위해 Fig. 2와 같이 항공 영상으로 만들어진 WHU 데이터셋(Ji et al., 2019)과 INRIA 데이터셋(Maggiori et al., 2017) 그리고 Kompsat-3A 위성 영상 데이터셋을 사용하였다. 세 가지 데이터셋의 입력 영상은 128 × 128 크기로 설정하였다. WHU데이터셋은 학습 데이터 4,736개와 테스트 데이터 2,416개로 구성되었으며 공간해상도는 0.3 m이며, 고층 및 저층 건물이 다양하게 분포된 건물 밀집 지역을 포함한다. INRIA 데이터셋은 학습 데이터 7,200개와 테스트 데이터 800개로 구성되었다. WHU데이터셋과 동일한 공간 해상도 0.3 m를 가지며, 도시 지 역과 교외 지역이 섞여 있는 다양한 지리적 환경을 포함한다. Kompsat-3A 데이터셋은 공간 해상도 0.55 m를 가지며 인천 지역을 촬영한 Kompsat-3AA데이터셋과 대전 및 세종 지역을 촬영한 Kompsat-3A B 데이터셋으로 구성되었다. Kompsat-3AA데이터셋은 학습 데이터 18,736개와 테스트 데이터 4,688개, Kompsat-3A B 데이터셋은 23,584개의 학습 데이터와 5,896개의 테스트 데이터로 구성되었다. WHU 데이터셋 크기를 기준으로 INRIA 데이터셋 크기는 약 1.5배 크며, Kompsat-3AA와 B 데이터셋의 크기는 약 4배와 5배 큰 규모의 데이터셋이다.
본 실험에서 사용된 하이퍼파라미터(hyperparameter)는 학습률을 0.0001로 고정하였으며, 배치 크기는 초기 실험에서 배치 크기 32 이상으로 설정할 경우, GPU의 처리 용량을 초과하여 학습이 중단되는 현상을 확인하였다. 따라서 초기 실험 결과와 Kandel and Castelli (2020)의 연구 결과를 참고하여 배치 크기는 2의 거듭제곱인 1, 2, 4, 8, 16을 사용하였다. 반복 학습 횟수(Epoch)는 50으로 설정하였고, optimizer는 Adam을, 손실 함수는 binary cross entropy로 설정하여 실험을 진행하였다. 성능 평가는 모델이 충분한 학습 과정을 거쳐서 수렴된 상태를 고려하고자 Epoch 41부터 50까지의 F1 score의 중앙값을 기준으로 하였다. F1 score는 정밀도(Precision)와 재현율(Recall)을 동시에 고려하는 성능 지표로, 식(1)을 통해 계산된다. 정밀도와 재현율은 각각 식(2)와 (3)으로 계산되며, 식(2)와 (3)에서 TP, FP, FN은 혼동행렬(confusion matrix)인 Table 2에서 표시된 True Positive (TP), False Negative (FN), False Positive (FP)를 의미한다.
Table 2 . Confusion matrix for evaluating the performance of deep learning models.
Inference result | |||
---|---|---|---|
True | False | ||
Ground truth | True | True Positive (TP) | False Negative (FN) |
False | False Positive (FP) | True Negative (TN) |
WHU데이터셋을 이용한 모델별 정확도 평가 결과는 Table 3과 같다. Table 3은 모델별로 다섯 가지 배치 크기를 적용한 F1 score 변화를 보여주며, F1 score가 가장 높은 모델은 밑줄로 강조하였다. 또한, 모델학습이 시작하여 종료될 때까지 소요된 시간도 함께 측정하였다. WHU데이터셋을 이용한 결과에서 CBAM-DRUNet 모델이 배치 크기 2에서 F1 score 0.9226으로 가장 우수한 성능을 보였다. 전이 학습을 적용한 모델과 적용하지 않은 모델을 비교한 결과, 전이 학습의 유무에 따른 F1 score의 차이는 크지 않았다. Fig. 3은 WHU 데이터셋에 대한 모델별 배치 크기에 따른 F1 Score의 변화를 나타낸다. 모델별로 배치 크기 1인 경우와 다른 배치 크기인 경우를 비교해 보면, F1 score의 차이가 미미한 경우가 많았다. 배치 크기 2 이상에서는 CBAM-DRUNet 모델과 CBAM-DRUNet-VGG19 모델이 우수한 F1 score를 보였다. 배치 크기 1과 배치 크기 2 이상을 비교했을 때 배치 크기가 증가함에 따라 UNet-VGG19 모델은 F1 score가 감소하지만, CBAM-DRUNet-VGG19 모델은 F1 score를 일정하게 유지하는 경향을 보였다. 나머지 다섯 가지 모델은 배치 크기가 증가함에 따라 F1 score가 약간 상승한 후 감소하는 경향을 보였다.
Table 3 . Comparison of F1 scores based on batch size for different deep learning models on the WHU dataset.
Model \ Batch size | 1 | 2 | 4 | 8 | 16 |
---|---|---|---|---|---|
UNet | 0.9048 | 0.9079 | 0.9104M | 0.9025 | 0.8956 |
ResUNet | 0.9012 | 0.9044 | 0.9007 | 0.8965 | 0.8883 |
DeepResUNet | 0.8887 | 0.9121 | 0.9143 | 0.9104 | 0.8986 |
CBAM-DRUNet | 0.9092 | 0.9226 | 0.9222 | 0.9188 | 0.9174 |
UNet-ResNet50 | 0.8830 | 0.8977 | 0.8970 | 0.8945 | 0.8877 |
UNet-VGG19 | 0.9104 | 0.9042 | 0.9001 | 0.9047 | 0.9029 |
CBAM-DRUNet-VGG19 | 0.9046 | 0.9166 | 0.9175 | 0.9180 | 0.9177 |
Table 4는 INRIA 데이터셋에 대한 각 모델의 배치 크기에 따른 F1 score의 결과이다. 근소한 차이지만 배치 크기 16에서 CBAMDRUNet-VGG19 모델이 F1 score 0.8852로 가장 우수한 성능을 보였다. 배치 크기 2 이상부터는 F1 score가 전반적으로 우수하며, 전이 학습을 적용한 모델과 그렇지 않은 모델 간의 F1 score 차이가 크지 않음을 확인할 수 있다. 그러나 전이 학습을 적용한 UNet-VGG19, UNet-ResNet50, CBAM-DRUNet-VGG19 모델은 전이 학습을 적용하지 않은 모델들과 비교했을 때 전반적으로 더 높은 F1 score를 보이며, 특히 더 큰 배치 크기에서 더 우수한 F1 score를 보여준다.
Table 4 . Comparison of F1 scores based on batch size for different deep learning models on the INRIA dataset.
Model \ Batch size | 1 | 2 | 4 | 8 | 16 |
---|---|---|---|---|---|
UNet | 0.7749 | 0.8619 | 0.8653 | 0.8394 | 0.8254 |
ResUNet | 0.7795 | 0.8297 | 0.8253 | 0.8214 | 0.8076 |
DeepResUNet | 0.8023 | 0.8602 | 0.8655 | 0.8533 | 0.8472 |
CBAM-DRUNet | 0.7968 | 0.8680 | 0.8738 | 0.8701 | 0.8732 |
UNet-ResNet50 | 0.8125 | 0.8576 | 0.8669 | 0.8698 | 0.8730 |
UNet-VGG19 | 0.7269 | 0.8718 | 0.8764 | 0.8771 | 0.8803 |
CBAM-DRUNet-VGG19 | 0.8421 | 0.8738 | 0.8797 | 0.8826 | 0.8852 |
Fig. 4는 INRIA 데이터셋에 대해 모델별 배치 크기에 따른 F1 score 변화를 보여준다. 배치 크기 1에서는 다른 배치 크기와 비교하여 F1 score가 낮게 나타나며, 배치 크기 2 이상에서는 F1 score가 비교적 높은 수준을 유지한다. 전이 학습을 적용한 UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델은 특히 우수한 F1 score를 보여준다. 전이 학습을 적용한 세 가지 모델인 UNet-ResNet50, UNet-VGG19, CBAM-DRUNet-VGG19은 배치 크기가 커질수록 F1 score가 일정하게 증가하는 결과를 보인다. 반면, 전이 학습을 적용하지 않은 모델들은 F1 score가 증가하다가 감소하는 경향을 보인다.
Fig. 5는WHU 데이터셋에서 각 모델의 배치 크기별 학습 시간을 나타낸다. 모든 모델에서 배치 크기가 증가함에 따라 학습 시간이 단축되는 경향을 보이며, ResUNet 모델의 학습 시간이 가장 짧다. 반면, DeepResUNet 모델과CBAM-DRUNet 모델, CBAM-DRUNet-VGG19 모델은 다른 모델들에 비해 학습 시간이 더 길게 소요되는 것을 볼 수 있다. 특히 배치 크기 1에서는DeepResUNet 모델의 학습 시간이 가장 길었으며, CBAM-DRUNet 모델과CBAM-DRUNet-VGG19 모델과 비교했을 때도 DeepResUNet 모델의 학습 시간이 더 오래 걸리는 경향을 보였다. 그러나 배치 크기 8 이상에서는 오히려 CBAM-DRUNet 모델과CBAM-DRUNet-VGG19 모델이DeepResUNet 모델보다 학습 소요 시간이 더 긴 결과를 보였다. 배치 크기 1과 비교했을 때, 배치 크기 16에서 가장 학습 시간이 크게 감소한 모델은UNet-ResNet50으로, 배치 크기 1에 비해 15.8%의 수준으로 학습 시간 감소를 보였다. 반면, 배치 크기 1과 비교했을 때, 배치 크기 16에서 학습 시간이 가장 적게 감소한 모델은 CBAM-DRUNet-VGG19로, 33.02% 수준으로 학습 시간이 감소하였다.
Fig. 6은 INRIA 데이터셋에 대한 각 모델의 배치 크기별 학습 시간을 나타낸다. WHU 데이터셋과 마찬가지로, 모든 모델에서 배치 크기가 증가할수록 학습 시간이 단축되는 경향을 보인다. 배치 크기 1과 비교했을 때, 배치 크기 16에서 학습 시간이 가장 크게 감소한 모델은UNet-ResNet50으로, 배치 크기 1에 비해 배치 크기 16에서 학습 시간이 11.24% 수준으로 감소하였으며, CBAM-DRUNet-VGG19 모델의 학습 시간은 26.02%로 가장 작게 감소하였다.
항공 영상 데이터셋 외에 두 가지 Kompsat-3A 위성 데이터셋을 추가로 사용하여 실험을 진행하였다. 그중 하나는 인천 지역의 Kompsat-3AA데이터셋이며, 그 결과는 Table 5와 같다. 배치 크기 2 이상에서 모든 모델이 F1 score가 증가하는 결과를 보였다. 배치 크기 8에서 CBAM-DRUNet 모델의 F1 score가 0.8407로 가장 우수한 성능을 보였다. Fig. 7은 Kompsat-3AA데이터셋에 대한 모델별 배치 크기에 따른 F1 score의 변화를 보여준다. 모든 모델이 배치 크기 2일 때 F1 score가 크게 향상되었으며, 특히 전이학습을 사용하지 않는 모델들의 F1 score가 크게 증가하는 경향을 보였다. 배치 크기 2 이상에서는 배치 크기가 증가하여도 F1 score의 값의 변동이 미미하고 일정한 범위 내에서 수렴하는 경향을 보였다.
Table 5 . Comparison of F1 scores based on batch size for different deep learning models on the Kompsat-3A A dataset.
Model \ Batch size | 1 | 2 | 4 | 8 | 16 |
---|---|---|---|---|---|
UNet | 0.3860 | 0.7930 | 0.8263 | 0.8279 | 0.8153 |
ResUNet | 0.6433 | 0.7895 | 0.8010 | 0.7988 | 0.7988 |
DeepResUNet | 0.7002 | 0.8217 | 0.8178 | 0.8162 | 0.8101 |
CBAM-DRUNet | 0.5199 | 0.8323 | 0.8344 | 0.8407 | 0.8321 |
UNet-ResNet50 | 0.5676 | 0.8183 | 0.8263 | 0.8305 | 0.8315 |
UNet-VGG19 | 0.7927 | 0.8337 | 0.8381 | 0.8392 | 0.8389 |
CBAM-DRUNet-VGG19 | 0.8020 | 0.8350 | 0.8340 | 0.8402 | 0.8388 |
Table 6은 Kompsat-3A B 데이터셋에 대한 각 모델의 배치 크기별 F1 score의 결과를 나타낸다. Kompsat-3AA데이터셋과 유사하게 배치 크기 2 이상에서 F1 score가 많이 증가하였다. Kompsat-3AB데이터셋에서 가장 우수한 F1 score를 기록한 모델은 CBAM-DRUNet-VGG19 모델이며, 배치 크기 16에서 0.8466의 F1 score를 보여주었다. Fig. 8은 Kompsat-3AB데이터셋에 대한 모델의 배치 크기별 F1 score 변화를 보여준다. 배치 크기 2 이상부터는 F1 score가 많이 향상되었으며 대부분의 모델에서 배치 크기 4 이상부터는 F1 score가 일정한 값을 유지하는 결과를 보인다.
Table 6 . Comparison of F1 scores based on batch size for different deep learning models on the Kompsat-3A B dataset.
Model \ Batch size | 1 | 2 | 4 | 8 | 16 |
---|---|---|---|---|---|
UNet | 0.4488 | 0.7758 | 0.8292 | 0.8307 | 0.8270 |
ResUNet | 0.6085 | 0.7898 | 0.8099 | 0.8128 | 0.8111 |
DeepResUNet | 0.7042 | 0.8239 | 0.8343 | 0.8348 | 0.8305 |
CBAM-DRUNet | 0.5652 | 0.8283 | 0.8449 | 0.8455 | 0.8432 |
UNet-ResNet50 | 0.6255 | 0.8174 | 0.8310 | 0.8373 | 0.8361 |
UNet-VGG19 | 0.7434 | 0.8332 | 0.8433 | 0.8444 | 0.8450 |
CBAM-DRUNet-VGG19 | 0.6690 | 0.8412 | 0.8420 | 0.8454 | 0.8466 |
Fig. 9는 Kompsat-3A A 데이터셋에 대한 각 모델의 배치 크기별 학습 시간을 보여준다. 모든 모델에서 배치 크기가 증가할수록 학습 시간이 단축되는 경향을 보였다. ResUNet 모델이 가장 짧은 학습 시간을 기록하였으며, DeepResUNet, CBAM-DRUNet 그리고 CBAMDRUNet-VGG19 모델의 학습 시간이 다른 모델들에 비해 더 소요되는 결과를 보였다. 배치 크기 1과 비교했을 때, 배치 크기 16에서 가장 학습 시간이 많이 감소한 모델은 UNet-ResNet50으로 배치 크기 1과 비교하여 배치 크기 16에서 12.26% 수준의 감소율을 보였다. 반면, 학습 시간이 가장 작게 감소한 모델은 CBAM-DRUNet-VGG19로 배치 크기 1과 비교하여 배치 크기 16에서 25.52% 수준의 감소율을 보였다.
Fig. 10은 Kompsat-3AB 데이터셋에 대한 각 모델의 배치 크기 별 학습 시간에 대한 결과를 보여준다. Kompsat-3AA데이터셋과 마찬가지로 모든 모델에서 배치 크기가 증가할수록 학습 시간이 단축되는 경향을 보였다. 배치 크기 1과 비교했을 때, 배치 크기 16에서 가장 학습 시간이 많이 감소한 모델은 UNet-ResNet50으로, 배치 크기 1에 비해 배치 크기 16에서 13.82% 수준의 감소율을 보였으며, 가장 적게 감소한 모델은 CBAM-DRUNet-VGG19로, 배치크기 1과 비교하여 배치크기 16에서 29.47% 수준의 감소율을 보였다.
본 논문에서는 원격탐사 영상에서 의미론적 영상 분할을 위한 딥러닝 시스템에서 배치 크기가 건물 검출 성능에 미치는 영향을 분석하기 위해WHU, INRIA, Kompsat-3A데이터셋을 사용하여, UNet 기반의 일곱 가지 딥러닝 모델을 대상으로 다섯 가지 배치 크기(1, 2, 4, 8, 16)에 따른 F1 score의 성능 변화와 수행 시간의 변화를 비교하였다.
데이터셋크기가제일작은WHU데이터셋의경우CBAM-DRUNet-VGG19 모델을 제외하고 나머지 모델들의 경우 배치 크기가 증가할수록 F1 score가 증가하다 감소하는 경향을 보였다. WHU 데이터셋 크기보다 약 1.5배 큰 INRIA 데이터셋에서는 전이학습 모델들은 배치 크기가 증가할 때 F1 score가 일정한 수준을 유지했지만, 그 외 모델들은 F1 score가 증가하다 감소하는 경향을 보였다. WHU 데이터셋 크기보다 4배, 5배 큰 두 종류의 Kompsat-3A 데이터셋의 경우에는 배치 크기가 2일 때 모든 모델의 F1 score가 크게 증가하고 2보다 큰 경우에는 F1 score의 추가적인 큰 상승이 없이 일정한 수준의 값으로 수렴하는 결과를 보였다. 각 데이터셋을 이용한 실험에서 배치 크기가 증가할수록 모든 모델들의 학습 시간이 일정 수준으로 단축되는 경향을 보였다.
실험 결과로부터 학습 데이터셋의 크기가 충분히 큰 경우에는 배치 크기를 2로 설정하는 정도만으로도 배치 크기 증가에 따른 성능 향상 정도를 충분히 달성할 수 있음을 확인하였다. 이는 제한된 GPU 처리 용량을 가진 시스템에서 원격탐사 영상을 이용한 의미론적 영상 분할 시 정확도 향상 측면에서는 배치 크기를 일반적으로 알려진 바와 같이 과도하게 크게 설정할 필요가 없으며, 학습 시간의 단축을 위해서 GPU 처리 용량이 허용하는 한도 내에서 배치 크기를 증가시키는 것이 적절함을 시사한다.
본 연구는 국토교통부/국토교통과학기술진흥원의 지원으로 수행되었음(과제번호: RS-2022-00155763).
No potential conflict of interest relevant to this article was reported.
Table 1 . The types of deep learning models used in the experiment.
Non-transfer learning model | Transfer learning model |
---|---|
UNet ResUNet DeepResUNet CBAM-DRUNet | UNet-VGG19 UNet-ResNet50 CBAM-DRUNet-VGG19 |
Table 2 . Confusion matrix for evaluating the performance of deep learning models.
Inference result | |||
---|---|---|---|
True | False | ||
Ground truth | True | True Positive (TP) | False Negative (FN) |
False | False Positive (FP) | True Negative (TN) |
Table 3 . Comparison of F1 scores based on batch size for different deep learning models on the WHU dataset.
Model \ Batch size | 1 | 2 | 4 | 8 | 16 |
---|---|---|---|---|---|
UNet | 0.9048 | 0.9079 | 0.9104M | 0.9025 | 0.8956 |
ResUNet | 0.9012 | 0.9044 | 0.9007 | 0.8965 | 0.8883 |
DeepResUNet | 0.8887 | 0.9121 | 0.9143 | 0.9104 | 0.8986 |
CBAM-DRUNet | 0.9092 | 0.9226 | 0.9222 | 0.9188 | 0.9174 |
UNet-ResNet50 | 0.8830 | 0.8977 | 0.8970 | 0.8945 | 0.8877 |
UNet-VGG19 | 0.9104 | 0.9042 | 0.9001 | 0.9047 | 0.9029 |
CBAM-DRUNet-VGG19 | 0.9046 | 0.9166 | 0.9175 | 0.9180 | 0.9177 |
Table 4 . Comparison of F1 scores based on batch size for different deep learning models on the INRIA dataset.
Model \ Batch size | 1 | 2 | 4 | 8 | 16 |
---|---|---|---|---|---|
UNet | 0.7749 | 0.8619 | 0.8653 | 0.8394 | 0.8254 |
ResUNet | 0.7795 | 0.8297 | 0.8253 | 0.8214 | 0.8076 |
DeepResUNet | 0.8023 | 0.8602 | 0.8655 | 0.8533 | 0.8472 |
CBAM-DRUNet | 0.7968 | 0.8680 | 0.8738 | 0.8701 | 0.8732 |
UNet-ResNet50 | 0.8125 | 0.8576 | 0.8669 | 0.8698 | 0.8730 |
UNet-VGG19 | 0.7269 | 0.8718 | 0.8764 | 0.8771 | 0.8803 |
CBAM-DRUNet-VGG19 | 0.8421 | 0.8738 | 0.8797 | 0.8826 | 0.8852 |
Table 5 . Comparison of F1 scores based on batch size for different deep learning models on the Kompsat-3A A dataset.
Model \ Batch size | 1 | 2 | 4 | 8 | 16 |
---|---|---|---|---|---|
UNet | 0.3860 | 0.7930 | 0.8263 | 0.8279 | 0.8153 |
ResUNet | 0.6433 | 0.7895 | 0.8010 | 0.7988 | 0.7988 |
DeepResUNet | 0.7002 | 0.8217 | 0.8178 | 0.8162 | 0.8101 |
CBAM-DRUNet | 0.5199 | 0.8323 | 0.8344 | 0.8407 | 0.8321 |
UNet-ResNet50 | 0.5676 | 0.8183 | 0.8263 | 0.8305 | 0.8315 |
UNet-VGG19 | 0.7927 | 0.8337 | 0.8381 | 0.8392 | 0.8389 |
CBAM-DRUNet-VGG19 | 0.8020 | 0.8350 | 0.8340 | 0.8402 | 0.8388 |
Table 6 . Comparison of F1 scores based on batch size for different deep learning models on the Kompsat-3A B dataset.
Model \ Batch size | 1 | 2 | 4 | 8 | 16 |
---|---|---|---|---|---|
UNet | 0.4488 | 0.7758 | 0.8292 | 0.8307 | 0.8270 |
ResUNet | 0.6085 | 0.7898 | 0.8099 | 0.8128 | 0.8111 |
DeepResUNet | 0.7042 | 0.8239 | 0.8343 | 0.8348 | 0.8305 |
CBAM-DRUNet | 0.5652 | 0.8283 | 0.8449 | 0.8455 | 0.8432 |
UNet-ResNet50 | 0.6255 | 0.8174 | 0.8310 | 0.8373 | 0.8361 |
UNet-VGG19 | 0.7434 | 0.8332 | 0.8433 | 0.8444 | 0.8450 |
CBAM-DRUNet-VGG19 | 0.6690 | 0.8412 | 0.8420 | 0.8454 | 0.8466 |