Research Article

Split Viewer

Korean J. Remote Sens. 2024; 40(5): 675-689

Published online: October 31, 2024

https://doi.org/10.7780/kjrs.2024.40.5.1.20

© Korean Society of Remote Sensing

토지피복 분류를 위한 멀티 모달 모델의 활용 가능성 평가

심우담1, 이정수2*

1강원대학교 산림환경과학대학 산림경영학과 박사후연구원
2강원대학교 산림환경과학대학 산림과학부 교수

Received: October 7, 2024; Revised: October 28, 2024; Accepted: October 28, 2024

Evaluation of the Potential Use of Multimodal Models for Land Cover Classification

Woo-Dam Sim1 , Jung-Soo Lee2*

1Postdoctoral Researcher, Department of Forest Management, College of Forest and Environmental Sciences, Kangwon National University, Chuncheon, Republic of Korea
2Professor, Division of Forest Science, College of Forest and Environmental Sciences, Kangwon National University, Chuncheon, Republic of Korea

Correspondence to : Jung-Soo Lee
E-mail: jslee72@kangwon.ac.kr

Received: October 7, 2024; Revised: October 28, 2024; Accepted: October 28, 2024

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

This study was conducted to evaluate the potential of a multimodal model for land cover classification. The performance of the Clipseg multimodal model was compared with two unimodal models including Convolutional Neural Network (CNN)-based Unet and Transformer-based Segformer for land cover classification. Using orthophotos of two areas (Area1 and Area2) in Wonju City, Gangwon Province, classification was performed for seven land cover categories (Forest, Cropland, Grassland, Wetland, Settlement, Bare Land, and Forestry-managed Land). The results showed that the Clipseg model demonstrated the highest generalization performance in new environments, achieving the highest accuracy among the three models with an Overall Accuracy of 83.9% and Kappa of 0.72 in the test area (Area2). It performed particularly well in classifying Forest (F1-Score 94.7%), Cropland (78.0%), and Settlement (78.4%). While Unet and Segformer models showed high accuracy in the training area (Area1), they exhibited limitations in generalization ability with accuracy decreases of 29% and 20% respectively in the test area. The Clipseg model required the most parameters (approximately 150 million) and the longest training time (10 hours 48 minutes) but showed stable performance in new environments. In contrast, Segformer achieved considerable accuracy with the least parameters (about 16 million) and the shortest training time (3 hours 21 minutes), demonstrating its potential for use in resource-limited environments. This study shows that image-text-based multimodal models have a high potential for land cover classification. Their superior generalization ability in new environments suggests they can be effectively applied to land cover classification in various regions. Future research could further improve classification accuracy through model structure improvements, addressing data imbalances, and additional validation in diverse environments.

Keywords Deep learning, Multimodal, Land cover, Clip, Clipseg, Segformer, Unet

원격탐사 기술은 접근성이 제한된 광역 지역을 주기적으로 모니터링할 수 있는 능력으로 인해 산림 분야에서 필수적인 도구로 자리잡았다(Kim et al., 2019; Woo et al., 2019). 특히 토지피복 분류는 환경 모니터링, 도시 계획, 기후 변화 연구 등 다양한 분야에서 중요한 역할을 하고 있다. 한국은 농림위성의 발사가 임박함에 따라 위성 기술과 4차 산업혁명 기술을 산림 분야에 접목시키는 데 대한 관심이 증대되고 있다. 산림청은 K-Forest 이니셔티브(Initiative)를 통해 4차 산업혁명 기술을 산림 R&D에 통합하고, 특히 디지털 및 비대면 기술 도입에 주력하고 있다(Cha et al., 2022). 이러한 배경에서 4차 산업혁명의 핵심 기술 중 하나인 인공지능, 특히 딥러닝 기술을 산림 분야의 주요 과제인 토지피복 분류에 적용하려는 노력이 활발히 이루어지고 있다(Zhu et al., 2017; Zhang et al., 2019).

원격탐사 데이터를 효과적으로 분석하기 위해서는 컴퓨터 비전기술의 적용이 필수적이다. 컴퓨터 비전 분야에서는 다양한 분석방법이 발전해 왔으며, 주요 방법으로는 이미지가 무엇인지 분류하는 Classification, 이미지 내 객체의 영역을 박스 형태로 표기하는 Object Detection, 이미지 내 범주별 객체들의 영역을 추출하는 Semantic Segmentation 그리고 이미지 내 각 객체들의 영역을 추출하는 Instance Segmentation 등이 있다. 토지피복 분류에서는 특히 Semantic Segmentation 기법이 널리 사용되고 있으며, 이를 통해 위성이나 항공 이미지에서 각 토지피복 유형의 정확한 경계를 추출할 수 있다. 비전 분야의 전통적인 딥러닝 모델들은 CNN또는 Transformer 기반의 아키텍처(Architecture)로 구성되어 있으며, 일반적으로 한 가지 태스크(Task)만을 수행하도록 설계되어 있다. 예를 들어 Classification 기반의 모델은 입력된 이미지의 범주만을 도출하며, Semantic Segmentation 기반의 모델은 이미지 내의 각 범주별 영역을 도출하게 된다. 토지피복 분류 분야에서도 Unet, DeepLab, Fully Convolutional Network (FCN), SegNet, PSPNet 등의 딥러닝 모델이 시멘틱 세그멘테이션 분야에서 높은 성능을 보여왔다(Ronneberger et al., 2015; Long et al., 2015; Badrinarayanan et al., 2017; Zhao et al., 2017; Chen et al., 2017). 그러나 이러한 전통적인 딥러닝 모델들은 몇 가지 한계점을 가지고 있다. 먼저, 모델의 구조가 특정 작업에 최적화되어 있어 다른 작업을 수행하기 위해서는 구조를 변경하거나 추가 모델로 후처리를 해야 한다. 또한, 사전에 정의된 범주의 결과만 도출할 수 있어 학습되지 않은 새로운 범주를 분류하고자 할 때는 모델을 재학습해야 하는 한계가 있다. 이는 다양하고 복잡한 토지피복 유형을 분류해야 하는 실제 응용에서 큰 제약이 될 수 있다.

이러한 한계를 극복하기 위해 최근 멀티모달(Multimodal) 딥러닝 모델이 주목받고 있다(Ma et al., 2019; Zhang et al., 2018a; Cho et al., 2014; Solórzano et al., 2021). 멀티모달 모델은 이미지, 텍스트, 오디오, 비디오 등 다양한 유형의 데이터를 동시에 처리할 수 있는 능력으로 새로운 가능성을 제시한다(Baltrušaitis et al., 2018). 멀티모달 모델은 이미지 분류, 시멘틱 세그멘테이션 등 단일 작업에 국한되었던 전통적인 모델과 달리, 다중 작업을 지원하기 때문에 범용성이 뛰어나다는 장점이 있다. 또한, 다양한 유형의 데이터를 학습하기 때문에 단일 모달리티(Modality) 모델의 한계를 보완하여 더 강건한 예측이 가능하며, Zero-Shot 학습 능력을 통해 새로운 범주나 작업에 대한 적응력이 우수하다(Wang et al., 2020; Radford et al., 2021). Lu et al. (2019)은 ViLBERT 모델을 통해 시각-언어 작업에서 우수한 성능을 보였으며, Tan and Bansal (2019)은 LXMERT 모델을 사용하여 시각-언어 추론 작업에서 높은 정확도를 달성했다. 시멘틱 세그멘테이션 분야에서는 이미지-텍스트 정보를 학습한 멀티모달 모델이 활용되고 있다.

Clipseg 모델은 OpenAI에서 개발한 Contrastive Language-Image Pre-training (CLIP) 모델을 기반으로 이미지와 텍스트 간의 의미적 관계를 이해하는 능력을 갖추고 있으며, CLIP의 특성을 세그멘테이션 태스크에 적용할 수 있는 모델이다(Lüddecke and Ecker, 2022). 사전 정의된 범주에 국한되지 않고 유연한 분류가 가능하다는 점에서 세그멘테이션 분야에서 새로운 가능성을 제시하고 있다. 토지피복 분류 분야에서는 Hong et al. (2020)이 멀티모달 심층 학습 프레임워크(Framework)를 제안하여 다중 소스 원격 감지 데이터의 분류 정확도를 향상시켰다. 또한, ChatGPT와 같은 언어모델에서도 텍스트 기반 상호작용만 가능했던 과거와 달리, 현재는 이미지와 표를 분석하는 기능이 추가되어 다양한 분야에서 멀티모달 모델이 활용되고 있다.

이에 따라 본 연구는 멀티모달 모델을 활용하여 토지피복 분류를 수행하고, 성능과 한계를 제시하여 토지피복 분야에서의 활용가능성 평가를 목적으로 하였다. 이를 통해 멀티모달 모델이 토지피복 분류 분야에서 가지는 잠재력과 향후 발전 방향을 제시하고자 한다.

2.1. 연구대상지 및 사용자료

연구대상지는 강원도 원주시의 문막읍과 귀래면에 위치한 Area1과 신림면에 위치한 Area2를 선정하였다. Area1의 면적은 약 884.7 ha로 동경 127°50′45.53″–127°53′09.28″, 북위 37°12′43.80″–37°14′10.47″에 위치하고 있으며, 딥러닝 모델의 학습 및 검증자료 구축을 위해 선정한 지역으로 원주시에서 다양한 피복이 분포하는 지역을 선정하였다. Area1은 2023년 환경부 토지피복도 기준 산림지역(약 42.4%), 초지(약 26.7%), 농업지역(약 15.5%) 순으로 분포하고 있다(Table 1). Area2는 약 895.2 ha로 동경 128°03′52.90″–128°05′55.64″, 북위 37°12′ 56.03″–37°14′34.18″에 위치하고 있으며, 학습이 완료된 딥러닝 모델을 적용하기 위한 테스트 지역으로 선정하였다. Area2의 토지피복 분포는 산림지역(약 61.7%), 농업지역(약 11.8%), 초지(약 11.0%) 순으로 분포하고 있다.

Table 1 Land cover distribution of the study area (Unit: ha)

AreaLand Cover Category
Used AreaAgricultural LandForestGrassWetlandBarrenWater
Area179.1 (8.9%)137.6 (15.5%)375.3 (42.4%)236.6 (26.7%)8.2 (0.9%)38.5 (4.4%)9.4 (1.1%)
Area229.9 (3.3)105.8 (11.8%)552.0 (61.7%)98.7 (11.0%)12.1 (1.4%)81.3 (9.1%)15.4 (1.7%)


연구에서 활용한 입력자료는 국토지리정보원에서 제공받은 정사항공사진을 활용하였다. 영상의 촬영시기는 Area1의 경우, 2022년 5월 1일과 5월 5일에 촬영되었으며 Area2는 2022년 5월 22일에 촬영되었다. 정사항공사진은 LEICA ADS80 카메라로 촬영되었으며, 0.25 m 공간해상도의 Red, Green, Blue 가시광선 정보를 제공한다. 본 연구에서는 영상의 노이즈제거와 딥러닝 모델의 학습효율성을 위해 0.25 m의 영상을 0.5 m로 다운샘플링(Downsampling)을 수행하여 연구에 활용하였다(Fig. 1).

Fig. 1. Research area.

2.2. 연구방법

토지피복 분야에서 멀티모달 모델의 활용가능성을 평가하기 위해 Clipseg 모델을 선정하였으며, 모델의 분류정확도 검토를 위해 CNN 아키텍처 기반의 Unet과 Transformer 기반의 Segformer를 비교 모델로 선정하였다. 3가지 모델을 활용하여 토지피복 분류를 수행하고 정확도 비교·평가를 통해 멀티모달 모델의 활용가능성에 대해 평가하였다(Fig. 2).

Fig. 2. Research method.

2.2.1 토지피복 분류를 위한 딥러닝 모델 선정

토지피복 분류를 위한 멀티모달 모델은 OpenAI사에서 개발한 CLIP 모델에 Semantic Segmentation Task를 확장시킨 Clipseg 모델을 활용하였다. CLIP은 이미지-텍스트 쌍을 학습하여 이미지와 텍스트 간의 연관성을 학습하는 모델이다. CLIP은 Contrastive Learning 대조 학습 방법을 사용하여 동일한 이미지-텍스트 쌍을 더 가깝게, 다른 쌍은 더 멀게 매핑(Mapping)함으로써 다차원 공간에서 이미지와 텍스트 간의 관계를 학습한다(Radford et al., 2021). Clipseg는 이러한 CLIP의 특성을 활용하면서 추가적인 디코더(Decoder) 구조를 통해 픽셀(Pixel) 단위의 Semantic Segmentation을 수행할 수 있도록 설계되었다. 이미지 인코더(Encoder)는 비전 트랜스포머(Vision Transfomer) 구조를 사용하며, 입력 이미지를 일정 크기의 패치(Patch)로 분할한 후 각 패치를 벡터(Vector)로 변환하는 과정으로 시작된다.

변환된 벡터들은 위치 정보를 담은 임베딩(Embedding)과 결합되어 트랜스포머 인코더 블록(Block)으로 전달된다. 이 블록에서는Multi-Head Self-Attention 메커니즘(Mechanism)과 Feedforward Network를 통해 이미지의 공간적, 의미론적 특징을 심층적으로 학습한다. 텍스트 인코더는 입력된 텍스트를 개별 토큰(Token)으로 분리한 후, 트랜스포머 기반의 언어 모델을 사용하여 각 토큰의 문맥적 의미를 벡터로 변환한다. 디코더 부분은 트랜스포머 기반의 Segmentation 디코더로, 인코더에서 생성된 이미지와 텍스트의 멀티모달 임베딩을 통합하여 최종적인 Segmentation Mask를 생성한다(Lüddecke and Ecker, 2022; Fig. 3).

Fig. 3. Deep learning model architecture.

본 연구는 멀티모달 모델의 토지피복 분류 성능 비교를 위해 CNN 아키텍처 기반의 Unet과 Transformer 기반의 Segformer를 비교 모델로 선정하였다. Unet 모델은 Ronneberger et al.(2015)에 의해 제안된 Fully Convolutional Network 구조의 모델이다. Unet은 인코더-디코더 구조를 가지며, 이미지에서 특징 정보를 추출하는 인코더 부분은 2개의 3 × 3 합성곱 층으로 구성된 Unet 블록과 최대 풀링(Pooling)을 통한 다운샘플링을 4번 반복하는 단순한 구조로 이루어져 있다. 디코더 부분에서는 다운샘플링으로 축소된 특징 맵(Map)을 원본 해상도로 복원하기 위해 4번의 업샘플링(Upsampling)을 수행한다. 각 업샘플링 단계 후에는 정보 손실과 기울기 소실 문제를 방지하기 위해 Skip-Connection을 통해 인코더에 대응되는 층의 특징 정보를 결합한다. 이러한 Skip-Connection은 Unet의 핵심적인 특징으로 저수준과 고수준의 특징을 효과적으로 결합하여 정확한 분할 결과를 얻을 수 있게 한다. Unet은 의료 영상 Semantic Segmentation Task에서 우수한 성능을 보였으며, 이후 ResUNet, Attention Unet, Unet++ 등 다양한 변형 모델이 제안되었다(Zhang et al., 2018b; Oktay et al., 2018; Zhou et al., 2018).

Segformer는 Xie et al.(2021)에 의해 제안된 비전 트랜스포머 기반의 시맨틱 분할 모델이다. 이 모델은 계층적 트랜스포머 인코더 구조를 활용하여 다양한 해상도의 특징 맵을 추출할 수 있다. Segformer의 주요 특징은 크게 세 가지로 나눌 수 있다. 첫째, 계층적 구조의 트랜스포머 인코더를 사용하여 다중 스케일 특징을 효과적으로 추출한다. 둘째, 효율적인 Self-Attention 메커니즘을 도입하여 계산 복잡도를 줄였다. 셋째, 경량화된 All-MLP 디코더를 사용하여 다중 스케일 특징을 효과적으로 융합한다. 이러한 구조적 특징으로 인해 Segformer는 다양한 입력 이미지 크기를 지원하며, 비교적 적은 연산량으로도 높은 성능을 보인다. Segformer의 인코더는 계층적 구조를 가진 트랜스포머 블록들로 이루어져 있다. 이 계층적 구조는 총 4개의 스테이지(Stage)로 구성되며, 각 스테이지마다 패치의 크기와 채널 수가 다르게 설정된다. 첫 번째 스테이지에서는 작은 패치 크기와 적은 수의 채널을 사용하여 세밀한 특징을 포착하고, 이후 스테이지로 갈수록 패치 크기는 커지고 채널 수도 증가하여 더 넓은 특징 정보를 추출한다.

각 스테이지의 트랜스포머 블록은 효율적인 Self-Attention 메커니즘을 사용한다. Segformer는 Mixed Feed-Forward Network (Mix-FFN)라는 새로운 구조를 도입했다. 이는 기존의 FFN에 3 × 3 Depthwise Convolution을 추가한 것으로 지역적 특징 정보를 더욱 효과적으로 포착할 수 있게 한다. 또한, 위치 인코딩을 사용하지 않는 대신 Self-Attention 계산 과정에서 상대적 위치 바이어스(Bias)를 적용하여 위치 정보를 학습하도록 구성하였다. 디코더는 각 인코더 스테이지의 출력을 동일한 공간 해상도로 조정한 후, 채널 방향으로 연결하여 통합하는 역할을 한다. 이후 MLP Layer를 통해 최종 분류 맵을 생성한다. 본 연구에서는 Segformer의 하이퍼파라미터(Hyperparameter)를 Segformer-B1 기준으로 설정하였다. Segformer의 최종 분류맵은 원이미지보다 1/4 크기로 작게 출력되므로, 본 연구에서는 최종 레이어(Layer) 이전 2배씩 2번 업샘플링을 수행하는 레이어를 추가하여 원이미지 크기로 출력되도록 모델 구조를 수정하였다.

2.2.2 딥러닝 모델의 데이터세트 구축

멀티모달 모델인 Clipseg의 학습을 위해서는 입력이미지와 라벨(Label) 이미지, 텍스트 프롬프트(Text prompt)가 필요하며, Unet, Segformer와 같은 Semantic Segmentation 모델의 학습을 위해서는 입력 이미지와 라벨 이미지의 구축이 필요하다. 입력 이미지는 정사항공사진의 Red, Green, Blue 3채널 정보를 그대로 활용하였으며, 352 × 352 pixel 크기의 타일 이미지로 분할하여 구축하였다. 라벨 이미지는 정사항공사진을 육안판독하여 구축하였으며, 분류범주는 Intergovernmental Panel on Climate Change (IPCC)에서 정의하고 있는 6가지 토지이용범주(산림지, 농경지, 초지, 습지, 정주지, 기타 토지)와 함께 벌채지와 조림지를 산림경영활동지로 구분하여 총 7개의 범주로 정의하였다(Intergovernmental Panel on Climate Change, 2006; Table 2; Fig. 4). Clipseg의 학습에 활용되는 텍스트 프롬프트는 이미지 내부의 분류 객체에 대한 설명을 문장 또는 단어로 입력해야 한다. 본 연구에서 각 타일 이미지에 포함된 객체들의 텍스트 프롬프트는 Table 2와 같이 7가지 토지이용 범주명으로 프롬프트를 구축하였다.

Fig. 4. Training dataset by land cover categories.

Table 2 Definitions by land cover categories

CategoryDescription
Forest

- All land with woody vegetation consistent with thresholds used to define forest land.

- Areas that are vegetation below the limits that can be defined as forests, but potentially forests.

Cropland

- An agriculture and forestry system with a vegetation structure below the limit that can be regarded as forest land.

- Cultivable and cultivated land, cultivated forestry: all land with woody vegetation consistent with thresholds used to define forest land.

Grassland

- Rangelands, pasture sites, woody vegetation below the limit that can be considered as forest land, and other non-herbaceous vegetation such as shrubs, wild, recreational areas, agricultural and silvopastoral systems.

Wetland

- Areas of peat extraction and land covered or saturated by water for all or part of the year.

- Reservoirs, natural rivers, and lakes.

Settlement

- All developed land, including transportation.

- Infrastructure and human settlements of any size.

Bare Land

- Bare soil, rock, and all land areas that do not fall into the other five categories.

Forestry-managed Land

- Forest management areas including logged areas and areas where reforestation has been performed after logging.



학습 및 검증 자료는 연구대상지의 Area1 지역에서 구축하였다. Area1을 352 × 352 pixel 크기의 격자로 분할하면 총 300개의 격자로 분할되며, 랜덤 샘플링(Random Sampling)을 통해 이 중 70%는 학습자료로 30%는 검증자료로 활용하였다. Clipseg는 입력 이미지, 라벨 이미지, 텍스트 정보가 하나의 셋트로 학습모델에 입력되며, 이러한 복잡한 구조로 인해 다중범주의 정보를 한번에 입력받기 어렵다. 이로 인해 이미지 내부에 다중범주가 분포할 경우 각 범주별 라벨 정보를 바이너리 형태로 제작하여 입력해야한다. 이미지 내부에 범주의 분포가 다양할수록 데이터세트의 개수도 늘어나기 때문에 Table 3과 같이 Semantic 모델과 멀티모달 모델의 데이터세트는 동일한 지역의 정보로 구축하였다. 그러나 데이터세트의 개수가 다르게 분포한다. Area2 지역은 테스트자료 구축에 활용하였다. 딥러닝 모델에서 흔히 발생하는 이미지 외곽 부분의 낮은 분류 정확도 문제를 해결하기 위해 Area2는 50%의 이미지 중첩율을 적용하여 총 1,225장의 타일 이미지를 생성하였다. 최종 분류 이미지 생성 시에는 중복을 피하기 위해 각 타일 이미지의 중심부 50% 영역만을 사용하였다.

Table 3 Dataset composition for deep learning models

CategoryTrain DataValidation DataTest Data
Data CountMultimodal Model6532671,225
Semantic Model210901,225
Area Distribution by Land Cover CategoryForest62.0%66.9%61.3%
Cropland10.6%8.4%12.2%
Grassland9.7%9.4%9.8%
Wetland2.4%2.1%0.6%
Settlement4.5%4.7%10.7%
Bare Land8.5%6.8%1.4%
Forestry-managed Land2.2%1.7%4.0%


2.2.3 딥러닝 모델의 학습 조건 설정 및 분류 정확도 평가

딥러닝 모델은 CPU AMD사 Ryzen 9 5950X(16core 3.4Ghz), Ram128 Gb, GPU NVIDIA사 RTX3090 환경에서 학습을 진행하였다. 딥러닝 모델의 학습횟수인 Epoch는 모든 모델에서 동일하게 3,000회로 설정하였으며, 학습율을 조정하는 Optimizer와 Learning Rate Scheduler는 선행 연구를 참조하여 AdamW Optimizer와 OneCycleLR 기법을 통해 유동적으로 학습율을 조정하도록 설정하였다(Loshchilov and Hutter, 2018; Smith and Topin, 2019). 학습과정에서 손실값을 계산하는 손실함수는 Clipseg 모델의 경우, 이미지 각각의 이진분류 결과를 검증하기 때문에 Binary Cross-Entropy Loss를 활용하였으며, Semantic Segmentation 모델은 다중분류에 널리 활용되는 Cross-Entropy Loss를 활용하였다(Zhang and Sabuncu, 2018).

딥러닝 모델의 분류 정확도는 학습이 완료된 딥러닝 모델을 타일 형태로 분할된 테스트 자료 이미지에 적용하여 모자이크 기법을 통해 1개 Scene 형태의 분류지도를 구축하고, 라벨 이미지와의 비교를 통해 정확도를 평가하였다. 정확도 평가 과정에서는 라벨 이미지와 딥러닝 기반 분류지도 간의 일치도를 확인하기 위해 혼동행렬(Confusion Matrix)을 작성하고 Overall Accuracy와 Kappa 계수를 통해 모델의 분류 성능을 정량적으로 평가하였다(Rouhi et al., 2015; Huang and Rust, 2018; 식 13). 범주별 분류 정확도의 경우, Precision과 Recall을 기반으로 F1-Score를 산출하여 정확도를 평가하였다(식 46).

Overall Accuracy=TP+TNTP+TN+FP+FN Kappa=Overall AccuracyPe1Pe Pe=TP+FNTP+FN+FP+TN×TP+FPTP+FN+FP+TN+FP+TNTP+FN+FP+TN×FN+TNTP+FN+FP+TN Precision=TPTP+FP Recall=TPTP+FN F1Score=2×Precision×RecallPrecision+Recall

또한, Clipseg 모델의 일반화 능력과 유연성을 평가하기 위해 다양한 텍스트 프롬프트를 활용한 분류 실험을 수행하였다. 일반적인 시멘틱 세그멘테이션 딥러닝 모델이 사전 정의된 범주만을 분류할 수 있는 것과 달리, Clipseg는 이미지와 텍스트 간의 의미적 관계를 학습하여 학습에 사용되지 않은 단어나 문장으로도 이미지를 분류할 수 있다는 특징이 있다. 이러한 특성을 검증하기 위해 Area1 지역을 대상으로 두 가지 방식의 분류를 수행하였다. 첫째, 모델 학습 시 사용한 7가지 토지피복 범주의 기본 용어를 프롬프트로 사용하여 토지피복도를 제작하였다. 둘째, 학습에 사용하지 않은 유사 의미의 다양한 단어들을 프롬프트로 활용하여 토지피복도를 제작하였다. 이 두 결과의 정확도를 비교 분석함으로써 Clipseg 모델의 분류 성능을 평가하였다.

3.1. 딥러닝 모델의 학습 및 검증 결과

딥러닝 모델의 학습 및 검증결과, 3가지 모델 모두 검증 정확도 기준 약 88% 이상의 정확도를 달성하였다(Table 4). Clipseg의 경우, 텍스트 정보를 활용한 멀티모달 접근법으로 각 토지피복 범주의 특성을 보다 효과적으로 학습할 수 있었다. 1 Epoch부터 약 87% 이상의 높은 정확도를 보였으며 3,000 Epoch까지 학습을 진행하였을 때, 약 95%의 검증정확도를 보여 세 모델 중 가장 높은 정확도를 보였다. Clipseg의 학습 정확도와 손실값은 3,000 Epoch까지 꾸준히 개선되었으나 검증 정확도 및 손실값은 2,000 Epoch부터 큰 변화를 보이지 않았다.

Table 4 Results of training and validation of the deep learning model

CategoryEpochClipsegUnetSegformer
Train Accuracy187.1%29.8%36.0%
50092.9%89.0%76.4%
1,00093.3%91.7%79.7%
1,50094.5%93.3%82.3%
2,00095.4%94.4%84.3%
2,50095.8%95.0%85.6%
3,00096.1%95.5%86.9%
Train Loss10.3610.3629.38
5000.145.083.33
1,0000.134.722.34
1,5000.114.531.88
2,0000.094.401.44
2,5000.084.141.28
3,0000.083.981.04
Validation Accuracy188.1%47.1%67.7%
50092.8%91.5%81.1%
1,00093.3%91.7%85.4%
1,50093.9%91.9%87.5%
2,00094.9%91.9%88.0%
2,50094.9%91.9%88.1%
3,00094.9%91.9%88.2%
Validation Loss10.344.9210.11
5000.142.732.29
1,0000.132.701.53
1,5000.122.631.19
2,0000.102.591.27
2,5000.102.541.42
3,0000.102.531.43
Total Parameters150,595,68134,527,51216,144,008
Training Time10 hours 48 minutes5 hours 46 minutes3 hours 21 minutes


이는 모델이 일정 수준 이상의 성능에 도달하면 추가적인 Epoch에서는 성능 향상이 미미할 수 있음을 시사한다. Unet의 경우, 세 모델 중 1 Epoch에서 가장 낮은 학습율을 보였으나 500 Epoch에서는 약 89%까지 학습 정확도가 상승하였다. 검증 정확도는 500 Epoch 이후 큰 변화를 보이지 않았으며 세 모델 중 가장 빠르게 수렴하였다. 이는 Unet이 비교적 단순한 구조로 인해 빠른 수렴 특성을 보이지만 복잡한 패턴을 학습하는 데 한계가 있을 수 있음을 나타낸다. Segformer는 1 Epoch에서 가장 높은 학습 손실값을 보였으나 500 Epoch부터 Unet 보다 낮은 손실 값을 보였다.

Segformer 모델은 학습 과정 전반에 걸쳐Unet 모델보다 낮은 손실값을 기록했음에도 불구하고, 학습 정확도 및 검증 정확도에서 Unet에 비해 저조한 성능을 보였다. 이러한 현상은 본 연구에서 손실 함수로 사용된 Cross Entropy가 Segmentation Task에서 모델의 실제 성능을 정확하게 반영하지 못할 가능성을 시사한다. Li et al. (2020)은 Boundary Relaxation Loss를 사용하여 객체의 분류 정확도를 향상시켰으며, Nanni et al. (2021)Huang et al. (2020)은 단일 손실 함수를 사용하는 것보다 여러 손실 함수를 결합하여 정확도가 향상된다고 보고하였다. 따라서 모델의 성능 평가 시 Cross Entropy 손실값 외에 추가적인 평가지표 활용이 필요하다고 판단된다. 한편, Segformer의 검증 정확도는 3,000 Epoch까지 꾸준히 상승하였으며, 검증 정확도가 수렴하지 않았기 때문에 더 높은 Epoch의 학습이 필요할 것으로 판단된다. 이는 Segformer가 복잡한 공간적 패턴을 학습하는 데 더 많은 데이터와 학습 시간이 필요함을 의미한다(Xie et al., 2021).

딥러닝 모델 별 학습 시간 및 파라미터를 검토한 결과, 모델의 복잡도와 성능 간의 높은 상관관계를 보였다. Clipseg는 텍스트 정보를 활용하는 멀티모달 모델로, 가장 많은 파라미터를 가진 복잡한 구조를 갖추고 있다. 그 결과, 10시간 48분의 가장 긴 학습 시간이 소요되었지만 가장 높은 정확도를 달성하였다. 반면, Segformer는 가장 적은 파라미터로 3시간 21분의 최단 학습 시간을 기록하였다. 이는 모델의 파라미터 수와 학습 시간 간의 명확한 정비례 관계가 있음을 나타낸다. Segformer는 가장 적은 파라미터 수와 최단 학습 시간에도 불구하고 약 88% 이상의 정확도를 보였으며, 리소스(Resource)가 제한된 환경에서 활용 가능성이 높을 것으로 판단된다.

3.2. 딥러닝 모델 별 정합성 평가

학습한 모델을 기반으로 Area1 지역의 토지피복도는 Fig. 5와 같이 구축되었다. Area1은 딥러닝 모델의 학습 및 검증 과정이 수행된 지역이기 때문에, 세 모델 모두 Overall Accuracy (OA) 기준 약 86% 이상의 정확도를 보였다(Table 5). Area1 지역에서는 OA와 Kappa 모두 Unet이 가장 높은 정확도를 보였으며, Segformer가 가장 낮은 정확도를 보였다. 이러한 경향은 Tzepkenlis et al. (2023)의 연구 사례와 유사하였다. Segformer의 상대적으로 낮은 정확도는 모델의 구조적 특성에 기인할 수 있다. Segformer는 계층적 트랜스포머 구조와 Self-Attention 메커니즘을 사용하여 다중 스케일 특징을 추출하는데, 이는 복잡한 공간적 관계와 장거리 의존성을 포착하는 데 효과적이지만 동시에 더 많은 학습 데이터와 Epoch를 필요로 한다(Xie et al., 2021). 특히, 본 연구의 데이터셋은 일부 범주의 샘플 수가 적어 데이터 불균형이 존재하며, 이는 Segformer의 학습에 부정적인 영향을 미칠 수 있다(He and Garcia, 2009).

Fig. 5. Deep learning-based land cover map of Area1.

Table 5 Accuracy assessment of deep learning-based land cover maps

AreaDeep Learning ModelOverall AccuracyKappa
Area1Clipseg90.2%0.83
Unet93.2%0.88
Segformer86.2%0.76
Area2Clipseg83.9%0.72
Unet69.1%0.47
Segformer66.3%0.36


한편, 세 모델 간의 정확도 차이는 테스트 지역인 Area2에서 높은 분포를 보였다(Fig. 6). Unet의 경우 Area1에서OA기준 93.2%로 가장 높은 정확도를 보였으나, Area2에서는 64.1%로 급격히 하락하여 약 29%의 정확도 감소를 나타냈다. Segformer 역시 Area1의 86.2%에서 Area2의 66.3%로 약 20% 감소하였다. 이러한 점은 딥러닝 모델들이 새로운 환경인 Area2에서 일반화 능력이 제한적임을 시사한다. Area1은 2022년 5월 1일~5일에 촬영된 지역이며, Area2는 2022년 5월 22일에 촬영된 지역으로 3주간의 시간적 차이가 존재한다. 또한, 5월은 봄과 초여름 사이의 계절로 한국의 계절적 특성상 이 시기는 식생이 많이 성장하는 시기이다. 따라서 Area1과 Area2는 영상의 분광값 분포에서 차이가 발생할 수 있으며, Tong et al. (2020)은 분류모델이 다른 센서나 지리적 위치에서 촬영된 이미지에 적용될 경우, 분류정확도가 감소할 수 있다고 언급하였다.

Fig. 6. Deep learning-based land cover map of Area2.

본 연구의 Clipseg 모델은 약 3주간의 시간적 차이에도 불구하고 6.3%의 상대적으로 작은 정확도 감소를 보여 일반화 성능의 우수함을 나타낸다. 다양한 분야의 선행 연구 사례에서도 단일 모델보다 멀티모달 모델을 활용할 때 일반화 성능이 높다는 점을 입증하였다(Liu et al., 2021; Tsimpoukelli et al., 2021). 특히, Hong et al. (2020)은 멀티모달 접근법을 통해 86.2% 높은 정확도를 달성하였지만 하이퍼스펙트럴(Hyperspectral) 이미지와 LiDAR 등 추가적인 분광데이터를 필요로 하였다. 반면, 본 연구의 Clipseg는 R,G,B 분광정보와 범주명의 텍스트 정보만을 활용하였음에도 83.9%의 정확도를 유지하여 데이터 효율성 측면에서 강점을 보였다. 이러한 결과는 분광정보에 추가적으로 텍스트 정보를 활용하는 멀티모달 학습 기법이 토지피복 분류 분야에서 유용한 접근법임을 시사한다.

3.3. 토지피복 범주별 분류정확도 평가

테스트 지역인 Area2에서 라벨 이미지와 딥러닝 기반 토지피복 분류 지도의 혼동행렬을 작성하여 범주별 정확도를 비교한 결과, Clipseg 모델은 전반적으로 가장 우수한 성능을 보였다. 특히, 산림지(94.7%), 농경지(78.0%), 정주지(78.4%)에서 높은 F1-Score를 기록하였다(Table 6). 이는 Liu et al. (2021)의 연구에서 멀티모달 모델이 단일 모달 모델보다 주요 범주에서 높은 정확도를 보인 결과와 일치한다. Unet과 Segformer 모델도 산림지에서는 각각 87.9%와 85.3%로 비교적 높은 정확도를 보였으나 다른 범주에서는 Clipseg에 비해 현저히 낮은 성능을 나타냈다. 한편, 모든 모델에서 습지, 기타토지, 산림경영활동지는 낮은 분류 정확도를 나타냈다. 특히 Segformer 모델의 경우, 습지는 4.2%라는 낮은 정확도를 기록했으며 Unet 모델도 9.4%에 그쳤다. 습지는 전통적으로 분류 정확도가 높은 범주에 속하지만 학습지역에서 약 2.4%의 면적비율로 타 범주보다 샘플수가 매우 적으며, 테스트 지역의 습지는 대부분 이끼 및 녹조현상으로 인해 초지와 구분이 어려워 분류 정확도가 낮은 것으로 판단된다.

Table 6 Confusion matrix for deep learning-based land cover classification map of Area2 (Unit: ha)

ModelCategoryLabel ImageF1-Score
ForestCroplandGrasslandWetlandSettlementBare LandForestry-managed Land
ClipsegForest529.92.818.60.14.00.313.594.7%
Cropland4.695.819.10.55.64.26.778.0%
Grassland6.84.526.90.74.60.30.841.3%
Wetland3.30.20.43.80.40.04.841.7%
Settlement4.34.615.30.178.92.10.078.4%
Bare Land0.41.14.60.22.35.30.040.3%
Forestry-managed Land0.80.31.00.00.00.110.542.7%
Overall Accuracy: 83.9%, Kappa: 0.72
UnetForest485.17.828.12.19.80.720.387.9%
Cropland1.873.414.70.111.52.92.068.0%
Grassland8.419.025.60.721.11.81.731.2%
Wetland23.62.84.42.23.30.34.59.4%
Settlement4.43.85.60.121.91.03.332.3%
Bare Land0.51.52.50.127.15.50.022.3%
Forestry-managed Land26.31.14.90.11.10.14.612.3%
Overall Accuracy: 69.1%, Kappa: 0.48
SegformerForest516.525.452.33.918.51.231.385.3%
Cropland0.333.36.50.112.03.10.043.2%
Grassland3.433.017.20.219.92.30.021.3%
Wetland39.50.61.71.00.80.00.94.2%
Settlement0.20.91.60.120.30.30.033.5%
Bare Land0.75.34.50.126.05.50.120.2%
Forestry-managed Land2.00.31.2-0.50.00.42.3%
Overall Accuracy: 66.4%, Kappa: 0.36


가장 정확도가 높은 Clipseg 모델의 주요 오분류 패턴을 살펴보면, 초지를 산림지로 오분류한 지역과 초지를 정주지로, 산림경영활동지를 산림지로 오분류한 사례가 가장 많이 발생하였다. 초지를 산림지로 오분류한 지역은 Fig. 7(a)와 같이, 하천의 녹조현상 발생지역을 산림지로 오분류 하거나 일부 산림지와 초지의 경계부에서 오분류가 발생하였다. 초지를 정주지로 오분류한 사례는 주로 정주지 사이의 조경지역 및 소규모 초본류 분포지역에서 오분류가 발생하였다(Fig. 7b). 초지의 오분류 사례는 범주의 경계부에서 발생한다는 공통점이 있다. 이는 Clipseg가 특징정보를 원본 이미지 크기로 복원하기 위해 디코더의 마지막 레이어에서 4배 업샘플링을 수행하며, 이 과정에서 Local Context 정보가 손실되기 때문으로 판단된다. 이러한 현상은 Clipseg의 구조적 단점으로 차후 디코더 아키텍처의 개선이 필요할 것으로 판단된다. 산림경영활동지를 산림지로 오분류한 현상은 벌채지에서 주로 발생하였으며, 산림경영활동지는 습지와 마찬가지로 타 범주보다 샘플수가 매우 적기때문에 추가적인 학습이 필요할 것으로 판단된다(Fig. 7c).

Fig. 7. Misclassification cases in deep learning-based land cover map.

3.4. 텍스트 프롬프트에 따른 Clipseg 모델의 분류 정확도 비교·평가

Clipseg 모델의 분류 성능 검토를 위해 학습된 모델에 다양한 텍스트 프롬프트를 입력하여 분류 정확도를 비교·검토하였다. 기존 학습모델에는 산림지, 농경지, 초지, 습지, 정주지, 기타토지, 산림경영활동지 7개의 단어를 텍스트 프롬프트로 입력하여 학습하였으나 Table 7과 같이 텍스트 프롬프트를 유사한 의미를 지닌 다른 단어를 입력하여 분류지도를 출력하였다. 이러한 프롬프트 기반 분류 방식은 두 가지 중요한 의미를 갖는다. 첫째, 모델이 학습하지 않은 용어를 이해하고 적절히 분류할 수 있는지 평가함으로써 모델의 언어 이해 능력과 일반화 성능을 검증할 수 있다. 둘째, 실제 응용 환경에서 사용자가 다양한 표현으로 토지피복을 검색하고 분류할 수 있는 유연성을 제공한다는 점에서 실용적 가치가 있다.

Table 7 Accuracy assessment of land cover classification for Area1 based on text prompt composition

Land Cover Map Based on Land Cover Category NamesLand Cover Map Based on Modified Text Prompts
Text PromptF1-ScoreText PromptF1-ScoreText PromptF1-Score
Forest96.9%Coniferous Forest and Deciduous Forest90.4%Tree89.5%
Cropland81.7%Agricultural Land10.5%Paddy Fields and Dry Fields5.1%
Grassland61.5%Meadow36.6%Pasture5.5%
Wetland94.7%Water67.7%River67.9%
Settlement75.5%Built-up Areas39.9%Residential Areas and Roads36.5%
Bare Land91.8%Bare Soil66.1%Wasteland71.2%
Forestry-managed Land70.8%Forestry Activity Area0.4%Afforested Areas and Deforested Areas31.0%
OA : 90.2%, Kappa : 0.83OA : 75.5%, Kappa : 0.52OA : 74.9%, Kappa : 0.49


텍스트 프롬프트에 따른 Clipseg 모델의 분류 정확도 비교·평가 결과, 프롬프트의 선택이 모델의 성능에 상당한 영향을 미치는 것으로 분석되었다. 산림지의 경우, 약 90% 이상의 높은 성능을 보였으며, 산림지보다 하위 범주 개념의 단어인 Coniferous forest and Deciduous forest와 Tree를 입력하더라도 다양한 산림 관련 용어에 대해 일관성 있는 성능을 보였다. 반면, 농경지와 초지에서는 오히려 구체적인 용어가 성능 저하를 초래했다. 이는 모델이 특정 범주에 대해 일반적인 용어나 빈도가 높은 단어를 더 잘 인식하며, 전문적이거나 드문 용어에 대해서는 인식 능력이 떨어질 수 있음을 시사한다.

습지와 기타토지의 경우, 변형된 텍스트 프롬프트를 사용했을 때 분류 정확도가 약간 감소하였지만 서로 다른 변형된 프롬프트들 사이에서 분류 정확도는 유사하게 분포하였다. 이는 프롬프트의 세부적인 단어 표현을 바꾸더라도 분류 정확도에 큰 변화가 없었기 때문에, 텍스트 프롬프트의 영향보다는 모델이 해당 범주의 이미지 특성에 기반하여 분류를 수행하고 있음을 의미한다. 이와 같이 Clipseg 모델을 적용할 때, 각 토지피복 유형에 가장 적합하고 모델이 잘 이해할 수 있는 프롬프트를 신중하게 선택하는 것이 중요함을 알 수 있다. 특히, 일부 토지피복 유형에서는 프롬프트 최적화나 추가적인 학습을 통해 모델의 성능 개선이 필요한 것으로 판단된다. 향후 연구에서는 다양한 프롬프트에 대한 모델의 반응을 체계적으로 분석하고, 프롬프트 디자인과 모델의 언어적 표현 학습을 강화하여 분류 정확도를 높이는 연구가 진행되어야 할 것으로 판단된다.

본 연구는 토지피복 분류를 위한 멀티모달 모델의 활용 가능성을 평가하기 위해 Clipseg 모델과 Unet, Segformer 모델을 비교·분석하였다. 연구 결과, Clipseg는 연구대상지인 Area1과 Area2 사이의 시간적 차이와 지역적 특성 변화에도 불구하고 세 모델 중 가장 높은 분류 정확도(OA: 83.9%, Kappa: 0.72)를 보였다. 이는 멀티모달 모델이 텍스트 정보를 활용하여 각 토지피복 범주의 의미와 특성을 효과적으로 학습할 수 있음을 나타낸다. Clipseg 모델은 산림지(94.7%), 농경지(78.0%), 정주지(78.4%) 등 주요 토지피복 범주에서 높은 분류 정확도를 보였으나 습지, 기타토지, 산림경영활동지 등에서는 상대적으로 낮은 정확도를 나타냈다. 이는 데이터의 불균형과 분광정보만으로는 분류에 한계점이 있는 것으로 판단된다. 모델 구조적 측면에서 Clipseg는 가장 많은 파라미터와 긴 학습 시간을 필요로 했지만 새로운 환경에서 가장 안정적인 성능을 보였다.

반면, Segformer는 가장 적은 파라미터와 최단 학습 시간으로 상당한 정확도를 달성해 리소스가 제한된 환경에서의 활용 가능성을 보여주었다. 주요 오분류 사례는 범주의 경계부에서 주로 발생했으며, 이는 Clipseg 모델의 디코더 구조 개선의 필요성을 시사한다. 본 연구 결과는 멀티모달 모델이 토지피복 분류에 있어 높은 잠재력을 가지고 있음을 보여준다. 그러나 일부 범주의 낮은 분류 정확도와 오분류 사례는 추가적인 개선이 필요함을 나타낸다. 향후 연구에서는 디코더 구조의 개선, 데이터 불균형 해소를 위한 방법론 개발 그리고 다양한 환경에서의 모델 검증이 필요할 것으로 판단된다.

이 논문은 2024년도 강원대학교 대학회계의 지원을 받아 수행되었습니다.

No potential conflict of interest relevant to this article was reported.

  1. Badrinarayanan, V., Kendall, A., and Cipolla, R., 2017. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12), 2481-2495. https://doi.org/10.1109/tpami.2016.2644615
  2. Baltrušaitis, T., Ahuja, C., and Morency, L. P., 2018. Multimodal machine learning: A survey and taxonomy. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(2), 423-443. https://doi.org/10.1109/tpami.2018.2798607
  3. Cha, S., Won, M., Jang, K., Kim, K., Kim, W., Baek, S., and Lim, J., 2022. Deep learning-based forest fire classification evaluation for application of CAS500-4. Korean Journal of Remote Sensing, 38(6-1), 1273-1283. https://doi.org/10.7780/kjrs.2022.38.6.1.22
  4. Chen, L. C., Papandreou, G., Kokkinos, I., Murphy, K., and Yuille, A. L., 2017. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4), 834-848. https://doi.org/10.1109/tpami.2017.2699184
  5. Cho, K., van Merrienboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., and Bengio, Y., 2014. Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078. https://doi.org/10.48550/arXiv.1406.1078
  6. He, H., and Garcia, E. A., 2009. Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering, 21(9), 1263-1284. https://doi.org/10.1109/TKDE.2008.239
  7. Hong, D., Gao, L., Yokoya, N., Yao, J., Chanussot, J., Du, Q., and Zhang, B., 2020. More diverse means better: Multimodal deep learning meets remote-sensing imagery classification. IEEE Transactions on Geoscience and Remote Sensing, 59(5), 4340-4354. https://doi.org/10.1109/TGRS.2020.3016820
  8. Huang, H., Lin, L., Tong, R., Hu, H., Zhang, Q., Iwamoto, Y., and Wu, J., 2020. UNet 3+: A full-scale connected UNet for medical image segmentation. In Proceedings of the ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, May 4-8, pp. 1055-1059. https://doi.org/10.1109/ICASSP40776.2020.9053405
  9. Huang, M. H., and Rust, R. T., 2018. Artificial intelligence in service. Journal of Service Research, 21(2), 155-172. https://doi.org/10.1177/1094670517752459
  10. Intergovernmental Panel on Climate Change, 2006. 2006 IPCC guidelines for national greenhouse gas inventories. Available online: https://www.ipcc-nggip.iges.or.jp/public/2006gl/index.html (accessed on Feb. 2, 2024)
  11. Kim, E. S., Won, M., Kim, K., Park, J., and Lee, J. S., 2019. Forest management research using optical sensors and remote sensing technologies. Korean Journal of Remote Sensing, 35(6-2), 1031-1035. https://doi.org/10.7780/kjrs.2019.35.6.2.1
  12. Li, X., Li, X., Zhang, L., Cheng, G., Shi, J., and Lin, Z., et al, 2020. Improving semantic segmentation via decoupled body and edge supervision. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J. M., (eds.), Computer Vision - ECCV 2020, Springer, pp. 435-452. https://doi.org/10.1007/978-3-030-58520-4_26
  13. Liu, W., Qiu, J. L., Zheng, W. L., and Lu, B. L., 2021. Comparing recognition performance and robustness of multimodal deep learning models for multimodal emotion recognition. IEEE Transactions on Cognitive and Developmental Systems, 14(2), 715-729. https://doi.org/10.1109/TCDS.2021.3071170
  14. Long, J., Shelhamer, E., and Darrell, T., 2015. Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, June 7-12, pp. 3431-3440. https://doi.org/10.1109/cvpr.2015.7298965
  15. Loshchilov, I., and Hutter, F., 2018. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101. https://doi.org/10.48550/arXiv.1711.05101
  16. Lu, J., Batra, D., Parikh, D., and Lee, S., 2019. Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. arXiv preprint arXiv:1908.02265. https://doi.org/10.48550/arXiv.1908.02265
  17. Lüddecke, T., and Ecker, A., 2022. Image segmentation using text and image prompts. arXiv preprint arXiv:2112.10003. https://doi.org/10.48550/arXiv.2112.10003
  18. Ma, L., Liu, Y., Zhang, X., Ye, Y., Yin, G., and Johnson, B. A., 2019. Deep learning in remote sensing applications: A meta-analysis and review. ISPRS Journal of Photogrammetry and Remote Sensing, 152, 166-177. https://doi.org/10.1016/j.isprsjprs.2019.04.015
  19. Nanni, L., Cuza, D., Lumini, A., Loreggia, A., and Brahnam, S., 2021. Deep ensembles in bioimage segmentation. arXiv preprint arXiv:2112.12955. https://doi.org/10.48550/arXiv.2112.12955
  20. Oktay, O., Schlemper, J., Folgoc, L. L., Lee, M., Heinrich, M., Misawa, K., and Rueckert, D., 2018. Attention U-Net: Learning where to look for the pancreas. arXiv preprint arXiv:1804.03999. https://doi.org/10.48550/arXiv.1804.03999
  21. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., and Agarwal, S., et al, 2021. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020. https://doi.org/10.48550/arXiv.2103.00020
  22. Ronneberger, O., Fischer, P., and Brox, T., 2015. U-Net: Convolutional networks for biomedical image segmentation. In: Navab, N., Hornegger, J., Wells, W., Frangi, A., (eds.), Medical image computing and computer-assisted intervention-MICCAI 2015, Springer, pp. 234-241. https://doi.org/10.1007/978-3-319-24574-4_28
  23. Rouhi, R., Jafari, M., Kasaei, S., and Keshavarzian, P., 2015. Benign and malignant breast tumors classification based on region growing and CNN segmentation. Expert Systems with Applications, 42(3), 990-1002. https://doi.org/10.1016/j.eswa.2014.09.020
  24. Smith, L. N., and Topin, N., 2019. Super-convergence: Very fast training of neural networks using large learning rates. In Proceedings of the SPIE 11006, Artificial Intelligence and Machine Learning for Multi-Domain Operations Applications, Baltimore, MD, USA, Apr. 14-18, pp. 369-386. https://doi.org/10.1117/12.2520589
  25. Solórzano, J. V., Mas, J. F., Gao, Y., and Gallardo-Cruz, J. A., 2021. Land use land cover classification with U-Net: Advantages of combining Sentinel-1 and Sentinel-2 imagery. Remote Sensing, 13(18), 3600. https://doi.org/10.3390/rs13183600
  26. Tan, H., and Bansal, M., 2019. Lxmert: Learning cross-modality encoder representations from transformers. arXiv preprint arXiv:1908.07490. https://doi.org/10.48550/arXiv.1908.07490
  27. Tong, X. Y., Xia, G. S., Lu, Q., Shen, H., Li, S., You, S., and Zhang, L., 2020. Land-cover classification with high-resolution remote sensing images using transferable deep models. Remote Sensing of Environment, 237, 111322. https://doi.org/10.1016/j.rse.2019.111322
  28. Tsimpoukelli, M., Menick, J. L., Cabi, S., Eslami, S. M., Vinyals, O., and Hill, F., 2021. Multimodal few-shot learning with frozen language models. arXiv preprint arXiv:2106.13884. https://doi.org/10.48550/arXiv.2106.13884
  29. Tzepkenlis, A., Marthoglou, K., and Grammalidis, N., 2023. Efficient deep semantic segmentation for land cover classification using sentinel imagery. Remote Sensing, 15(8), 2027. https://doi.org/10.3390/rs15082027
  30. Wang, Y., Huang, W., Sun, F., Xu, T., Rong, Y., and Huang, J., 2020. Deep multimodal fusion by channel exchanging. arXiv preprint arXiv: 2011.05005. https://doi.org/10.48550/arXiv.2011.05005
  31. Woo, H., Cho, S., Jung, G., and Park, J., 2019. Precision forestry using remote sensing techniques: Opportunities and limitations of remote sensing application in forestry. Korean Journal of Remote Sensing, 35(6-2), 1067-1082. https://doi.org/10.7780/kjrs.2019.35.6.2.4
  32. Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J. M., and Luo, P., 2021. SegFormer: Simple and efficient design for semantic segmentation with transformers. arXiv preprint arXiv:2015.15203. https://doi.org/10.48550/arXiv.2105.15203
  33. Zhang, C., Pan, X., Li, H., Gardiner, A., Sargent, I., Hare, J., and Atkinson, P. M., 2018a. A hybrid MLP-CNN classifier for very fine resolution remotely sensed image classification. ISPRS Journal of Photogrammetry and Remote Sensing, 140, 133-144. https://doi.org/10.1016/j.isprsjprs.2017.07.014
  34. Zhang, C., Sargent, I., Pan, X., Li, H., Gardiner, A., Hare, J., and Atkinson, P. M., 2019. Joint deep learning for land cover and land use classification. Remote Sensing of Environment, 221, 173-187. https://doi.org/10.1016/j.rse.2018.11.014
  35. Zhang, Z., Liu, Q., and Wang, Y., 2018b. Road extraction by deep residual U-Net. IEEE Geoscience and Remote Sensing Letters, 15(5), 749-753. https://doi.org/10.1109/LGRS.2018.2802944
  36. Zhang, Z., and Sabuncu, M., 2018. Generalized cross entropy loss for training deep neural networks with noisy labels. arXiv preprint arXiv:1805.07836. https://doi.org/10.48550/arXiv.1805.07836
  37. Zhao, H., Shi, J., Qi, X., Wang, X., and Jia, J., 2017. Pyramid scene parsing network. arXiv preprint arXiv:1612.01105. https://doi.org/10.48550/arXiv.1612.01105
  38. Zhou, Z., Rahman Siddiquee, M. M., Tajbakhsh, N., and Liang, J., 2018. Unet++: A nested U-Net architecture for medical image segmentation. In: Stoyanov, D., Taylor, Z., Carneiro, G., Syeda-Mahmood, T., Martel, A., Maier-Hein, L., (eds.), Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support, Springer, pp. 3-11. https://doi.org/10.1007/978-3-030-00889-5_1
  39. Zhu, X. X., Tuia, D., Mou, L., Xia, G. S., Zhang, L., Xu, F., and Fraundorfer, F., 2017. Deep learning in remote sensing: A comprehensive review and list of resources. IEEE Geoscience and Remote Sensing Magazine, 5(4), 8-36. https://doi.org/10.1109/MGRS.2017.2762307

Research Article

Korean J. Remote Sens. 2024; 40(5): 675-689

Published online October 31, 2024 https://doi.org/10.7780/kjrs.2024.40.5.1.20

Copyright © Korean Society of Remote Sensing.

토지피복 분류를 위한 멀티 모달 모델의 활용 가능성 평가

심우담1, 이정수2*

1강원대학교 산림환경과학대학 산림경영학과 박사후연구원
2강원대학교 산림환경과학대학 산림과학부 교수

Received: October 7, 2024; Revised: October 28, 2024; Accepted: October 28, 2024

Evaluation of the Potential Use of Multimodal Models for Land Cover Classification

Woo-Dam Sim1 , Jung-Soo Lee2*

1Postdoctoral Researcher, Department of Forest Management, College of Forest and Environmental Sciences, Kangwon National University, Chuncheon, Republic of Korea
2Professor, Division of Forest Science, College of Forest and Environmental Sciences, Kangwon National University, Chuncheon, Republic of Korea

Correspondence to:Jung-Soo Lee
E-mail: jslee72@kangwon.ac.kr

Received: October 7, 2024; Revised: October 28, 2024; Accepted: October 28, 2024

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Abstract

This study was conducted to evaluate the potential of a multimodal model for land cover classification. The performance of the Clipseg multimodal model was compared with two unimodal models including Convolutional Neural Network (CNN)-based Unet and Transformer-based Segformer for land cover classification. Using orthophotos of two areas (Area1 and Area2) in Wonju City, Gangwon Province, classification was performed for seven land cover categories (Forest, Cropland, Grassland, Wetland, Settlement, Bare Land, and Forestry-managed Land). The results showed that the Clipseg model demonstrated the highest generalization performance in new environments, achieving the highest accuracy among the three models with an Overall Accuracy of 83.9% and Kappa of 0.72 in the test area (Area2). It performed particularly well in classifying Forest (F1-Score 94.7%), Cropland (78.0%), and Settlement (78.4%). While Unet and Segformer models showed high accuracy in the training area (Area1), they exhibited limitations in generalization ability with accuracy decreases of 29% and 20% respectively in the test area. The Clipseg model required the most parameters (approximately 150 million) and the longest training time (10 hours 48 minutes) but showed stable performance in new environments. In contrast, Segformer achieved considerable accuracy with the least parameters (about 16 million) and the shortest training time (3 hours 21 minutes), demonstrating its potential for use in resource-limited environments. This study shows that image-text-based multimodal models have a high potential for land cover classification. Their superior generalization ability in new environments suggests they can be effectively applied to land cover classification in various regions. Future research could further improve classification accuracy through model structure improvements, addressing data imbalances, and additional validation in diverse environments.

Keywords: Deep learning, Multimodal, Land cover, Clip, Clipseg, Segformer, Unet

1. 서론

원격탐사 기술은 접근성이 제한된 광역 지역을 주기적으로 모니터링할 수 있는 능력으로 인해 산림 분야에서 필수적인 도구로 자리잡았다(Kim et al., 2019; Woo et al., 2019). 특히 토지피복 분류는 환경 모니터링, 도시 계획, 기후 변화 연구 등 다양한 분야에서 중요한 역할을 하고 있다. 한국은 농림위성의 발사가 임박함에 따라 위성 기술과 4차 산업혁명 기술을 산림 분야에 접목시키는 데 대한 관심이 증대되고 있다. 산림청은 K-Forest 이니셔티브(Initiative)를 통해 4차 산업혁명 기술을 산림 R&D에 통합하고, 특히 디지털 및 비대면 기술 도입에 주력하고 있다(Cha et al., 2022). 이러한 배경에서 4차 산업혁명의 핵심 기술 중 하나인 인공지능, 특히 딥러닝 기술을 산림 분야의 주요 과제인 토지피복 분류에 적용하려는 노력이 활발히 이루어지고 있다(Zhu et al., 2017; Zhang et al., 2019).

원격탐사 데이터를 효과적으로 분석하기 위해서는 컴퓨터 비전기술의 적용이 필수적이다. 컴퓨터 비전 분야에서는 다양한 분석방법이 발전해 왔으며, 주요 방법으로는 이미지가 무엇인지 분류하는 Classification, 이미지 내 객체의 영역을 박스 형태로 표기하는 Object Detection, 이미지 내 범주별 객체들의 영역을 추출하는 Semantic Segmentation 그리고 이미지 내 각 객체들의 영역을 추출하는 Instance Segmentation 등이 있다. 토지피복 분류에서는 특히 Semantic Segmentation 기법이 널리 사용되고 있으며, 이를 통해 위성이나 항공 이미지에서 각 토지피복 유형의 정확한 경계를 추출할 수 있다. 비전 분야의 전통적인 딥러닝 모델들은 CNN또는 Transformer 기반의 아키텍처(Architecture)로 구성되어 있으며, 일반적으로 한 가지 태스크(Task)만을 수행하도록 설계되어 있다. 예를 들어 Classification 기반의 모델은 입력된 이미지의 범주만을 도출하며, Semantic Segmentation 기반의 모델은 이미지 내의 각 범주별 영역을 도출하게 된다. 토지피복 분류 분야에서도 Unet, DeepLab, Fully Convolutional Network (FCN), SegNet, PSPNet 등의 딥러닝 모델이 시멘틱 세그멘테이션 분야에서 높은 성능을 보여왔다(Ronneberger et al., 2015; Long et al., 2015; Badrinarayanan et al., 2017; Zhao et al., 2017; Chen et al., 2017). 그러나 이러한 전통적인 딥러닝 모델들은 몇 가지 한계점을 가지고 있다. 먼저, 모델의 구조가 특정 작업에 최적화되어 있어 다른 작업을 수행하기 위해서는 구조를 변경하거나 추가 모델로 후처리를 해야 한다. 또한, 사전에 정의된 범주의 결과만 도출할 수 있어 학습되지 않은 새로운 범주를 분류하고자 할 때는 모델을 재학습해야 하는 한계가 있다. 이는 다양하고 복잡한 토지피복 유형을 분류해야 하는 실제 응용에서 큰 제약이 될 수 있다.

이러한 한계를 극복하기 위해 최근 멀티모달(Multimodal) 딥러닝 모델이 주목받고 있다(Ma et al., 2019; Zhang et al., 2018a; Cho et al., 2014; Solórzano et al., 2021). 멀티모달 모델은 이미지, 텍스트, 오디오, 비디오 등 다양한 유형의 데이터를 동시에 처리할 수 있는 능력으로 새로운 가능성을 제시한다(Baltrušaitis et al., 2018). 멀티모달 모델은 이미지 분류, 시멘틱 세그멘테이션 등 단일 작업에 국한되었던 전통적인 모델과 달리, 다중 작업을 지원하기 때문에 범용성이 뛰어나다는 장점이 있다. 또한, 다양한 유형의 데이터를 학습하기 때문에 단일 모달리티(Modality) 모델의 한계를 보완하여 더 강건한 예측이 가능하며, Zero-Shot 학습 능력을 통해 새로운 범주나 작업에 대한 적응력이 우수하다(Wang et al., 2020; Radford et al., 2021). Lu et al. (2019)은 ViLBERT 모델을 통해 시각-언어 작업에서 우수한 성능을 보였으며, Tan and Bansal (2019)은 LXMERT 모델을 사용하여 시각-언어 추론 작업에서 높은 정확도를 달성했다. 시멘틱 세그멘테이션 분야에서는 이미지-텍스트 정보를 학습한 멀티모달 모델이 활용되고 있다.

Clipseg 모델은 OpenAI에서 개발한 Contrastive Language-Image Pre-training (CLIP) 모델을 기반으로 이미지와 텍스트 간의 의미적 관계를 이해하는 능력을 갖추고 있으며, CLIP의 특성을 세그멘테이션 태스크에 적용할 수 있는 모델이다(Lüddecke and Ecker, 2022). 사전 정의된 범주에 국한되지 않고 유연한 분류가 가능하다는 점에서 세그멘테이션 분야에서 새로운 가능성을 제시하고 있다. 토지피복 분류 분야에서는 Hong et al. (2020)이 멀티모달 심층 학습 프레임워크(Framework)를 제안하여 다중 소스 원격 감지 데이터의 분류 정확도를 향상시켰다. 또한, ChatGPT와 같은 언어모델에서도 텍스트 기반 상호작용만 가능했던 과거와 달리, 현재는 이미지와 표를 분석하는 기능이 추가되어 다양한 분야에서 멀티모달 모델이 활용되고 있다.

이에 따라 본 연구는 멀티모달 모델을 활용하여 토지피복 분류를 수행하고, 성능과 한계를 제시하여 토지피복 분야에서의 활용가능성 평가를 목적으로 하였다. 이를 통해 멀티모달 모델이 토지피복 분류 분야에서 가지는 잠재력과 향후 발전 방향을 제시하고자 한다.

2. 연구 자료 및 방법

2.1. 연구대상지 및 사용자료

연구대상지는 강원도 원주시의 문막읍과 귀래면에 위치한 Area1과 신림면에 위치한 Area2를 선정하였다. Area1의 면적은 약 884.7 ha로 동경 127°50′45.53″–127°53′09.28″, 북위 37°12′43.80″–37°14′10.47″에 위치하고 있으며, 딥러닝 모델의 학습 및 검증자료 구축을 위해 선정한 지역으로 원주시에서 다양한 피복이 분포하는 지역을 선정하였다. Area1은 2023년 환경부 토지피복도 기준 산림지역(약 42.4%), 초지(약 26.7%), 농업지역(약 15.5%) 순으로 분포하고 있다(Table 1). Area2는 약 895.2 ha로 동경 128°03′52.90″–128°05′55.64″, 북위 37°12′ 56.03″–37°14′34.18″에 위치하고 있으며, 학습이 완료된 딥러닝 모델을 적용하기 위한 테스트 지역으로 선정하였다. Area2의 토지피복 분포는 산림지역(약 61.7%), 농업지역(약 11.8%), 초지(약 11.0%) 순으로 분포하고 있다.

Table 1 . Land cover distribution of the study area (Unit: ha).

AreaLand Cover Category
Used AreaAgricultural LandForestGrassWetlandBarrenWater
Area179.1 (8.9%)137.6 (15.5%)375.3 (42.4%)236.6 (26.7%)8.2 (0.9%)38.5 (4.4%)9.4 (1.1%)
Area229.9 (3.3)105.8 (11.8%)552.0 (61.7%)98.7 (11.0%)12.1 (1.4%)81.3 (9.1%)15.4 (1.7%)


연구에서 활용한 입력자료는 국토지리정보원에서 제공받은 정사항공사진을 활용하였다. 영상의 촬영시기는 Area1의 경우, 2022년 5월 1일과 5월 5일에 촬영되었으며 Area2는 2022년 5월 22일에 촬영되었다. 정사항공사진은 LEICA ADS80 카메라로 촬영되었으며, 0.25 m 공간해상도의 Red, Green, Blue 가시광선 정보를 제공한다. 본 연구에서는 영상의 노이즈제거와 딥러닝 모델의 학습효율성을 위해 0.25 m의 영상을 0.5 m로 다운샘플링(Downsampling)을 수행하여 연구에 활용하였다(Fig. 1).

Figure 1. Research area.

2.2. 연구방법

토지피복 분야에서 멀티모달 모델의 활용가능성을 평가하기 위해 Clipseg 모델을 선정하였으며, 모델의 분류정확도 검토를 위해 CNN 아키텍처 기반의 Unet과 Transformer 기반의 Segformer를 비교 모델로 선정하였다. 3가지 모델을 활용하여 토지피복 분류를 수행하고 정확도 비교·평가를 통해 멀티모달 모델의 활용가능성에 대해 평가하였다(Fig. 2).

Figure 2. Research method.

2.2.1 토지피복 분류를 위한 딥러닝 모델 선정

토지피복 분류를 위한 멀티모달 모델은 OpenAI사에서 개발한 CLIP 모델에 Semantic Segmentation Task를 확장시킨 Clipseg 모델을 활용하였다. CLIP은 이미지-텍스트 쌍을 학습하여 이미지와 텍스트 간의 연관성을 학습하는 모델이다. CLIP은 Contrastive Learning 대조 학습 방법을 사용하여 동일한 이미지-텍스트 쌍을 더 가깝게, 다른 쌍은 더 멀게 매핑(Mapping)함으로써 다차원 공간에서 이미지와 텍스트 간의 관계를 학습한다(Radford et al., 2021). Clipseg는 이러한 CLIP의 특성을 활용하면서 추가적인 디코더(Decoder) 구조를 통해 픽셀(Pixel) 단위의 Semantic Segmentation을 수행할 수 있도록 설계되었다. 이미지 인코더(Encoder)는 비전 트랜스포머(Vision Transfomer) 구조를 사용하며, 입력 이미지를 일정 크기의 패치(Patch)로 분할한 후 각 패치를 벡터(Vector)로 변환하는 과정으로 시작된다.

변환된 벡터들은 위치 정보를 담은 임베딩(Embedding)과 결합되어 트랜스포머 인코더 블록(Block)으로 전달된다. 이 블록에서는Multi-Head Self-Attention 메커니즘(Mechanism)과 Feedforward Network를 통해 이미지의 공간적, 의미론적 특징을 심층적으로 학습한다. 텍스트 인코더는 입력된 텍스트를 개별 토큰(Token)으로 분리한 후, 트랜스포머 기반의 언어 모델을 사용하여 각 토큰의 문맥적 의미를 벡터로 변환한다. 디코더 부분은 트랜스포머 기반의 Segmentation 디코더로, 인코더에서 생성된 이미지와 텍스트의 멀티모달 임베딩을 통합하여 최종적인 Segmentation Mask를 생성한다(Lüddecke and Ecker, 2022; Fig. 3).

Figure 3. Deep learning model architecture.

본 연구는 멀티모달 모델의 토지피복 분류 성능 비교를 위해 CNN 아키텍처 기반의 Unet과 Transformer 기반의 Segformer를 비교 모델로 선정하였다. Unet 모델은 Ronneberger et al.(2015)에 의해 제안된 Fully Convolutional Network 구조의 모델이다. Unet은 인코더-디코더 구조를 가지며, 이미지에서 특징 정보를 추출하는 인코더 부분은 2개의 3 × 3 합성곱 층으로 구성된 Unet 블록과 최대 풀링(Pooling)을 통한 다운샘플링을 4번 반복하는 단순한 구조로 이루어져 있다. 디코더 부분에서는 다운샘플링으로 축소된 특징 맵(Map)을 원본 해상도로 복원하기 위해 4번의 업샘플링(Upsampling)을 수행한다. 각 업샘플링 단계 후에는 정보 손실과 기울기 소실 문제를 방지하기 위해 Skip-Connection을 통해 인코더에 대응되는 층의 특징 정보를 결합한다. 이러한 Skip-Connection은 Unet의 핵심적인 특징으로 저수준과 고수준의 특징을 효과적으로 결합하여 정확한 분할 결과를 얻을 수 있게 한다. Unet은 의료 영상 Semantic Segmentation Task에서 우수한 성능을 보였으며, 이후 ResUNet, Attention Unet, Unet++ 등 다양한 변형 모델이 제안되었다(Zhang et al., 2018b; Oktay et al., 2018; Zhou et al., 2018).

Segformer는 Xie et al.(2021)에 의해 제안된 비전 트랜스포머 기반의 시맨틱 분할 모델이다. 이 모델은 계층적 트랜스포머 인코더 구조를 활용하여 다양한 해상도의 특징 맵을 추출할 수 있다. Segformer의 주요 특징은 크게 세 가지로 나눌 수 있다. 첫째, 계층적 구조의 트랜스포머 인코더를 사용하여 다중 스케일 특징을 효과적으로 추출한다. 둘째, 효율적인 Self-Attention 메커니즘을 도입하여 계산 복잡도를 줄였다. 셋째, 경량화된 All-MLP 디코더를 사용하여 다중 스케일 특징을 효과적으로 융합한다. 이러한 구조적 특징으로 인해 Segformer는 다양한 입력 이미지 크기를 지원하며, 비교적 적은 연산량으로도 높은 성능을 보인다. Segformer의 인코더는 계층적 구조를 가진 트랜스포머 블록들로 이루어져 있다. 이 계층적 구조는 총 4개의 스테이지(Stage)로 구성되며, 각 스테이지마다 패치의 크기와 채널 수가 다르게 설정된다. 첫 번째 스테이지에서는 작은 패치 크기와 적은 수의 채널을 사용하여 세밀한 특징을 포착하고, 이후 스테이지로 갈수록 패치 크기는 커지고 채널 수도 증가하여 더 넓은 특징 정보를 추출한다.

각 스테이지의 트랜스포머 블록은 효율적인 Self-Attention 메커니즘을 사용한다. Segformer는 Mixed Feed-Forward Network (Mix-FFN)라는 새로운 구조를 도입했다. 이는 기존의 FFN에 3 × 3 Depthwise Convolution을 추가한 것으로 지역적 특징 정보를 더욱 효과적으로 포착할 수 있게 한다. 또한, 위치 인코딩을 사용하지 않는 대신 Self-Attention 계산 과정에서 상대적 위치 바이어스(Bias)를 적용하여 위치 정보를 학습하도록 구성하였다. 디코더는 각 인코더 스테이지의 출력을 동일한 공간 해상도로 조정한 후, 채널 방향으로 연결하여 통합하는 역할을 한다. 이후 MLP Layer를 통해 최종 분류 맵을 생성한다. 본 연구에서는 Segformer의 하이퍼파라미터(Hyperparameter)를 Segformer-B1 기준으로 설정하였다. Segformer의 최종 분류맵은 원이미지보다 1/4 크기로 작게 출력되므로, 본 연구에서는 최종 레이어(Layer) 이전 2배씩 2번 업샘플링을 수행하는 레이어를 추가하여 원이미지 크기로 출력되도록 모델 구조를 수정하였다.

2.2.2 딥러닝 모델의 데이터세트 구축

멀티모달 모델인 Clipseg의 학습을 위해서는 입력이미지와 라벨(Label) 이미지, 텍스트 프롬프트(Text prompt)가 필요하며, Unet, Segformer와 같은 Semantic Segmentation 모델의 학습을 위해서는 입력 이미지와 라벨 이미지의 구축이 필요하다. 입력 이미지는 정사항공사진의 Red, Green, Blue 3채널 정보를 그대로 활용하였으며, 352 × 352 pixel 크기의 타일 이미지로 분할하여 구축하였다. 라벨 이미지는 정사항공사진을 육안판독하여 구축하였으며, 분류범주는 Intergovernmental Panel on Climate Change (IPCC)에서 정의하고 있는 6가지 토지이용범주(산림지, 농경지, 초지, 습지, 정주지, 기타 토지)와 함께 벌채지와 조림지를 산림경영활동지로 구분하여 총 7개의 범주로 정의하였다(Intergovernmental Panel on Climate Change, 2006; Table 2; Fig. 4). Clipseg의 학습에 활용되는 텍스트 프롬프트는 이미지 내부의 분류 객체에 대한 설명을 문장 또는 단어로 입력해야 한다. 본 연구에서 각 타일 이미지에 포함된 객체들의 텍스트 프롬프트는 Table 2와 같이 7가지 토지이용 범주명으로 프롬프트를 구축하였다.

Figure 4. Training dataset by land cover categories.

Table 2 . Definitions by land cover categories.

CategoryDescription
Forest

-. All land with woody vegetation consistent with thresholds used to define forest land..

-. Areas that are vegetation below the limits that can be defined as forests, but potentially forests..

Cropland

-. An agriculture and forestry system with a vegetation structure below the limit that can be regarded as forest land..

-. Cultivable and cultivated land, cultivated forestry: all land with woody vegetation consistent with thresholds used to define forest land..

Grassland

-. Rangelands, pasture sites, woody vegetation below the limit that can be considered as forest land, and other non-herbaceous vegetation such as shrubs, wild, recreational areas, agricultural and silvopastoral systems..

Wetland

-. Areas of peat extraction and land covered or saturated by water for all or part of the year..

-. Reservoirs, natural rivers, and lakes..

Settlement

-. All developed land, including transportation..

-. Infrastructure and human settlements of any size..

Bare Land

-. Bare soil, rock, and all land areas that do not fall into the other five categories..

Forestry-managed Land

-. Forest management areas including logged areas and areas where reforestation has been performed after logging..



학습 및 검증 자료는 연구대상지의 Area1 지역에서 구축하였다. Area1을 352 × 352 pixel 크기의 격자로 분할하면 총 300개의 격자로 분할되며, 랜덤 샘플링(Random Sampling)을 통해 이 중 70%는 학습자료로 30%는 검증자료로 활용하였다. Clipseg는 입력 이미지, 라벨 이미지, 텍스트 정보가 하나의 셋트로 학습모델에 입력되며, 이러한 복잡한 구조로 인해 다중범주의 정보를 한번에 입력받기 어렵다. 이로 인해 이미지 내부에 다중범주가 분포할 경우 각 범주별 라벨 정보를 바이너리 형태로 제작하여 입력해야한다. 이미지 내부에 범주의 분포가 다양할수록 데이터세트의 개수도 늘어나기 때문에 Table 3과 같이 Semantic 모델과 멀티모달 모델의 데이터세트는 동일한 지역의 정보로 구축하였다. 그러나 데이터세트의 개수가 다르게 분포한다. Area2 지역은 테스트자료 구축에 활용하였다. 딥러닝 모델에서 흔히 발생하는 이미지 외곽 부분의 낮은 분류 정확도 문제를 해결하기 위해 Area2는 50%의 이미지 중첩율을 적용하여 총 1,225장의 타일 이미지를 생성하였다. 최종 분류 이미지 생성 시에는 중복을 피하기 위해 각 타일 이미지의 중심부 50% 영역만을 사용하였다.

Table 3 . Dataset composition for deep learning models.

CategoryTrain DataValidation DataTest Data
Data CountMultimodal Model6532671,225
Semantic Model210901,225
Area Distribution by Land Cover CategoryForest62.0%66.9%61.3%
Cropland10.6%8.4%12.2%
Grassland9.7%9.4%9.8%
Wetland2.4%2.1%0.6%
Settlement4.5%4.7%10.7%
Bare Land8.5%6.8%1.4%
Forestry-managed Land2.2%1.7%4.0%


2.2.3 딥러닝 모델의 학습 조건 설정 및 분류 정확도 평가

딥러닝 모델은 CPU AMD사 Ryzen 9 5950X(16core 3.4Ghz), Ram128 Gb, GPU NVIDIA사 RTX3090 환경에서 학습을 진행하였다. 딥러닝 모델의 학습횟수인 Epoch는 모든 모델에서 동일하게 3,000회로 설정하였으며, 학습율을 조정하는 Optimizer와 Learning Rate Scheduler는 선행 연구를 참조하여 AdamW Optimizer와 OneCycleLR 기법을 통해 유동적으로 학습율을 조정하도록 설정하였다(Loshchilov and Hutter, 2018; Smith and Topin, 2019). 학습과정에서 손실값을 계산하는 손실함수는 Clipseg 모델의 경우, 이미지 각각의 이진분류 결과를 검증하기 때문에 Binary Cross-Entropy Loss를 활용하였으며, Semantic Segmentation 모델은 다중분류에 널리 활용되는 Cross-Entropy Loss를 활용하였다(Zhang and Sabuncu, 2018).

딥러닝 모델의 분류 정확도는 학습이 완료된 딥러닝 모델을 타일 형태로 분할된 테스트 자료 이미지에 적용하여 모자이크 기법을 통해 1개 Scene 형태의 분류지도를 구축하고, 라벨 이미지와의 비교를 통해 정확도를 평가하였다. 정확도 평가 과정에서는 라벨 이미지와 딥러닝 기반 분류지도 간의 일치도를 확인하기 위해 혼동행렬(Confusion Matrix)을 작성하고 Overall Accuracy와 Kappa 계수를 통해 모델의 분류 성능을 정량적으로 평가하였다(Rouhi et al., 2015; Huang and Rust, 2018; 식 13). 범주별 분류 정확도의 경우, Precision과 Recall을 기반으로 F1-Score를 산출하여 정확도를 평가하였다(식 46).

Overall Accuracy=TP+TNTP+TN+FP+FN Kappa=Overall AccuracyPe1Pe Pe=TP+FNTP+FN+FP+TN×TP+FPTP+FN+FP+TN+FP+TNTP+FN+FP+TN×FN+TNTP+FN+FP+TN Precision=TPTP+FP Recall=TPTP+FN F1Score=2×Precision×RecallPrecision+Recall

또한, Clipseg 모델의 일반화 능력과 유연성을 평가하기 위해 다양한 텍스트 프롬프트를 활용한 분류 실험을 수행하였다. 일반적인 시멘틱 세그멘테이션 딥러닝 모델이 사전 정의된 범주만을 분류할 수 있는 것과 달리, Clipseg는 이미지와 텍스트 간의 의미적 관계를 학습하여 학습에 사용되지 않은 단어나 문장으로도 이미지를 분류할 수 있다는 특징이 있다. 이러한 특성을 검증하기 위해 Area1 지역을 대상으로 두 가지 방식의 분류를 수행하였다. 첫째, 모델 학습 시 사용한 7가지 토지피복 범주의 기본 용어를 프롬프트로 사용하여 토지피복도를 제작하였다. 둘째, 학습에 사용하지 않은 유사 의미의 다양한 단어들을 프롬프트로 활용하여 토지피복도를 제작하였다. 이 두 결과의 정확도를 비교 분석함으로써 Clipseg 모델의 분류 성능을 평가하였다.

3. 연구 결과 및 토의

3.1. 딥러닝 모델의 학습 및 검증 결과

딥러닝 모델의 학습 및 검증결과, 3가지 모델 모두 검증 정확도 기준 약 88% 이상의 정확도를 달성하였다(Table 4). Clipseg의 경우, 텍스트 정보를 활용한 멀티모달 접근법으로 각 토지피복 범주의 특성을 보다 효과적으로 학습할 수 있었다. 1 Epoch부터 약 87% 이상의 높은 정확도를 보였으며 3,000 Epoch까지 학습을 진행하였을 때, 약 95%의 검증정확도를 보여 세 모델 중 가장 높은 정확도를 보였다. Clipseg의 학습 정확도와 손실값은 3,000 Epoch까지 꾸준히 개선되었으나 검증 정확도 및 손실값은 2,000 Epoch부터 큰 변화를 보이지 않았다.

Table 4 . Results of training and validation of the deep learning model.

CategoryEpochClipsegUnetSegformer
Train Accuracy187.1%29.8%36.0%
50092.9%89.0%76.4%
1,00093.3%91.7%79.7%
1,50094.5%93.3%82.3%
2,00095.4%94.4%84.3%
2,50095.8%95.0%85.6%
3,00096.1%95.5%86.9%
Train Loss10.3610.3629.38
5000.145.083.33
1,0000.134.722.34
1,5000.114.531.88
2,0000.094.401.44
2,5000.084.141.28
3,0000.083.981.04
Validation Accuracy188.1%47.1%67.7%
50092.8%91.5%81.1%
1,00093.3%91.7%85.4%
1,50093.9%91.9%87.5%
2,00094.9%91.9%88.0%
2,50094.9%91.9%88.1%
3,00094.9%91.9%88.2%
Validation Loss10.344.9210.11
5000.142.732.29
1,0000.132.701.53
1,5000.122.631.19
2,0000.102.591.27
2,5000.102.541.42
3,0000.102.531.43
Total Parameters150,595,68134,527,51216,144,008
Training Time10 hours 48 minutes5 hours 46 minutes3 hours 21 minutes


이는 모델이 일정 수준 이상의 성능에 도달하면 추가적인 Epoch에서는 성능 향상이 미미할 수 있음을 시사한다. Unet의 경우, 세 모델 중 1 Epoch에서 가장 낮은 학습율을 보였으나 500 Epoch에서는 약 89%까지 학습 정확도가 상승하였다. 검증 정확도는 500 Epoch 이후 큰 변화를 보이지 않았으며 세 모델 중 가장 빠르게 수렴하였다. 이는 Unet이 비교적 단순한 구조로 인해 빠른 수렴 특성을 보이지만 복잡한 패턴을 학습하는 데 한계가 있을 수 있음을 나타낸다. Segformer는 1 Epoch에서 가장 높은 학습 손실값을 보였으나 500 Epoch부터 Unet 보다 낮은 손실 값을 보였다.

Segformer 모델은 학습 과정 전반에 걸쳐Unet 모델보다 낮은 손실값을 기록했음에도 불구하고, 학습 정확도 및 검증 정확도에서 Unet에 비해 저조한 성능을 보였다. 이러한 현상은 본 연구에서 손실 함수로 사용된 Cross Entropy가 Segmentation Task에서 모델의 실제 성능을 정확하게 반영하지 못할 가능성을 시사한다. Li et al. (2020)은 Boundary Relaxation Loss를 사용하여 객체의 분류 정확도를 향상시켰으며, Nanni et al. (2021)Huang et al. (2020)은 단일 손실 함수를 사용하는 것보다 여러 손실 함수를 결합하여 정확도가 향상된다고 보고하였다. 따라서 모델의 성능 평가 시 Cross Entropy 손실값 외에 추가적인 평가지표 활용이 필요하다고 판단된다. 한편, Segformer의 검증 정확도는 3,000 Epoch까지 꾸준히 상승하였으며, 검증 정확도가 수렴하지 않았기 때문에 더 높은 Epoch의 학습이 필요할 것으로 판단된다. 이는 Segformer가 복잡한 공간적 패턴을 학습하는 데 더 많은 데이터와 학습 시간이 필요함을 의미한다(Xie et al., 2021).

딥러닝 모델 별 학습 시간 및 파라미터를 검토한 결과, 모델의 복잡도와 성능 간의 높은 상관관계를 보였다. Clipseg는 텍스트 정보를 활용하는 멀티모달 모델로, 가장 많은 파라미터를 가진 복잡한 구조를 갖추고 있다. 그 결과, 10시간 48분의 가장 긴 학습 시간이 소요되었지만 가장 높은 정확도를 달성하였다. 반면, Segformer는 가장 적은 파라미터로 3시간 21분의 최단 학습 시간을 기록하였다. 이는 모델의 파라미터 수와 학습 시간 간의 명확한 정비례 관계가 있음을 나타낸다. Segformer는 가장 적은 파라미터 수와 최단 학습 시간에도 불구하고 약 88% 이상의 정확도를 보였으며, 리소스(Resource)가 제한된 환경에서 활용 가능성이 높을 것으로 판단된다.

3.2. 딥러닝 모델 별 정합성 평가

학습한 모델을 기반으로 Area1 지역의 토지피복도는 Fig. 5와 같이 구축되었다. Area1은 딥러닝 모델의 학습 및 검증 과정이 수행된 지역이기 때문에, 세 모델 모두 Overall Accuracy (OA) 기준 약 86% 이상의 정확도를 보였다(Table 5). Area1 지역에서는 OA와 Kappa 모두 Unet이 가장 높은 정확도를 보였으며, Segformer가 가장 낮은 정확도를 보였다. 이러한 경향은 Tzepkenlis et al. (2023)의 연구 사례와 유사하였다. Segformer의 상대적으로 낮은 정확도는 모델의 구조적 특성에 기인할 수 있다. Segformer는 계층적 트랜스포머 구조와 Self-Attention 메커니즘을 사용하여 다중 스케일 특징을 추출하는데, 이는 복잡한 공간적 관계와 장거리 의존성을 포착하는 데 효과적이지만 동시에 더 많은 학습 데이터와 Epoch를 필요로 한다(Xie et al., 2021). 특히, 본 연구의 데이터셋은 일부 범주의 샘플 수가 적어 데이터 불균형이 존재하며, 이는 Segformer의 학습에 부정적인 영향을 미칠 수 있다(He and Garcia, 2009).

Figure 5. Deep learning-based land cover map of Area1.

Table 5 . Accuracy assessment of deep learning-based land cover maps.

AreaDeep Learning ModelOverall AccuracyKappa
Area1Clipseg90.2%0.83
Unet93.2%0.88
Segformer86.2%0.76
Area2Clipseg83.9%0.72
Unet69.1%0.47
Segformer66.3%0.36


한편, 세 모델 간의 정확도 차이는 테스트 지역인 Area2에서 높은 분포를 보였다(Fig. 6). Unet의 경우 Area1에서OA기준 93.2%로 가장 높은 정확도를 보였으나, Area2에서는 64.1%로 급격히 하락하여 약 29%의 정확도 감소를 나타냈다. Segformer 역시 Area1의 86.2%에서 Area2의 66.3%로 약 20% 감소하였다. 이러한 점은 딥러닝 모델들이 새로운 환경인 Area2에서 일반화 능력이 제한적임을 시사한다. Area1은 2022년 5월 1일~5일에 촬영된 지역이며, Area2는 2022년 5월 22일에 촬영된 지역으로 3주간의 시간적 차이가 존재한다. 또한, 5월은 봄과 초여름 사이의 계절로 한국의 계절적 특성상 이 시기는 식생이 많이 성장하는 시기이다. 따라서 Area1과 Area2는 영상의 분광값 분포에서 차이가 발생할 수 있으며, Tong et al. (2020)은 분류모델이 다른 센서나 지리적 위치에서 촬영된 이미지에 적용될 경우, 분류정확도가 감소할 수 있다고 언급하였다.

Figure 6. Deep learning-based land cover map of Area2.

본 연구의 Clipseg 모델은 약 3주간의 시간적 차이에도 불구하고 6.3%의 상대적으로 작은 정확도 감소를 보여 일반화 성능의 우수함을 나타낸다. 다양한 분야의 선행 연구 사례에서도 단일 모델보다 멀티모달 모델을 활용할 때 일반화 성능이 높다는 점을 입증하였다(Liu et al., 2021; Tsimpoukelli et al., 2021). 특히, Hong et al. (2020)은 멀티모달 접근법을 통해 86.2% 높은 정확도를 달성하였지만 하이퍼스펙트럴(Hyperspectral) 이미지와 LiDAR 등 추가적인 분광데이터를 필요로 하였다. 반면, 본 연구의 Clipseg는 R,G,B 분광정보와 범주명의 텍스트 정보만을 활용하였음에도 83.9%의 정확도를 유지하여 데이터 효율성 측면에서 강점을 보였다. 이러한 결과는 분광정보에 추가적으로 텍스트 정보를 활용하는 멀티모달 학습 기법이 토지피복 분류 분야에서 유용한 접근법임을 시사한다.

3.3. 토지피복 범주별 분류정확도 평가

테스트 지역인 Area2에서 라벨 이미지와 딥러닝 기반 토지피복 분류 지도의 혼동행렬을 작성하여 범주별 정확도를 비교한 결과, Clipseg 모델은 전반적으로 가장 우수한 성능을 보였다. 특히, 산림지(94.7%), 농경지(78.0%), 정주지(78.4%)에서 높은 F1-Score를 기록하였다(Table 6). 이는 Liu et al. (2021)의 연구에서 멀티모달 모델이 단일 모달 모델보다 주요 범주에서 높은 정확도를 보인 결과와 일치한다. Unet과 Segformer 모델도 산림지에서는 각각 87.9%와 85.3%로 비교적 높은 정확도를 보였으나 다른 범주에서는 Clipseg에 비해 현저히 낮은 성능을 나타냈다. 한편, 모든 모델에서 습지, 기타토지, 산림경영활동지는 낮은 분류 정확도를 나타냈다. 특히 Segformer 모델의 경우, 습지는 4.2%라는 낮은 정확도를 기록했으며 Unet 모델도 9.4%에 그쳤다. 습지는 전통적으로 분류 정확도가 높은 범주에 속하지만 학습지역에서 약 2.4%의 면적비율로 타 범주보다 샘플수가 매우 적으며, 테스트 지역의 습지는 대부분 이끼 및 녹조현상으로 인해 초지와 구분이 어려워 분류 정확도가 낮은 것으로 판단된다.

Table 6 . Confusion matrix for deep learning-based land cover classification map of Area2 (Unit: ha).

ModelCategoryLabel ImageF1-Score
ForestCroplandGrasslandWetlandSettlementBare LandForestry-managed Land
ClipsegForest529.92.818.60.14.00.313.594.7%
Cropland4.695.819.10.55.64.26.778.0%
Grassland6.84.526.90.74.60.30.841.3%
Wetland3.30.20.43.80.40.04.841.7%
Settlement4.34.615.30.178.92.10.078.4%
Bare Land0.41.14.60.22.35.30.040.3%
Forestry-managed Land0.80.31.00.00.00.110.542.7%
Overall Accuracy: 83.9%, Kappa: 0.72
UnetForest485.17.828.12.19.80.720.387.9%
Cropland1.873.414.70.111.52.92.068.0%
Grassland8.419.025.60.721.11.81.731.2%
Wetland23.62.84.42.23.30.34.59.4%
Settlement4.43.85.60.121.91.03.332.3%
Bare Land0.51.52.50.127.15.50.022.3%
Forestry-managed Land26.31.14.90.11.10.14.612.3%
Overall Accuracy: 69.1%, Kappa: 0.48
SegformerForest516.525.452.33.918.51.231.385.3%
Cropland0.333.36.50.112.03.10.043.2%
Grassland3.433.017.20.219.92.30.021.3%
Wetland39.50.61.71.00.80.00.94.2%
Settlement0.20.91.60.120.30.30.033.5%
Bare Land0.75.34.50.126.05.50.120.2%
Forestry-managed Land2.00.31.2-0.50.00.42.3%
Overall Accuracy: 66.4%, Kappa: 0.36


가장 정확도가 높은 Clipseg 모델의 주요 오분류 패턴을 살펴보면, 초지를 산림지로 오분류한 지역과 초지를 정주지로, 산림경영활동지를 산림지로 오분류한 사례가 가장 많이 발생하였다. 초지를 산림지로 오분류한 지역은 Fig. 7(a)와 같이, 하천의 녹조현상 발생지역을 산림지로 오분류 하거나 일부 산림지와 초지의 경계부에서 오분류가 발생하였다. 초지를 정주지로 오분류한 사례는 주로 정주지 사이의 조경지역 및 소규모 초본류 분포지역에서 오분류가 발생하였다(Fig. 7b). 초지의 오분류 사례는 범주의 경계부에서 발생한다는 공통점이 있다. 이는 Clipseg가 특징정보를 원본 이미지 크기로 복원하기 위해 디코더의 마지막 레이어에서 4배 업샘플링을 수행하며, 이 과정에서 Local Context 정보가 손실되기 때문으로 판단된다. 이러한 현상은 Clipseg의 구조적 단점으로 차후 디코더 아키텍처의 개선이 필요할 것으로 판단된다. 산림경영활동지를 산림지로 오분류한 현상은 벌채지에서 주로 발생하였으며, 산림경영활동지는 습지와 마찬가지로 타 범주보다 샘플수가 매우 적기때문에 추가적인 학습이 필요할 것으로 판단된다(Fig. 7c).

Figure 7. Misclassification cases in deep learning-based land cover map.

3.4. 텍스트 프롬프트에 따른 Clipseg 모델의 분류 정확도 비교·평가

Clipseg 모델의 분류 성능 검토를 위해 학습된 모델에 다양한 텍스트 프롬프트를 입력하여 분류 정확도를 비교·검토하였다. 기존 학습모델에는 산림지, 농경지, 초지, 습지, 정주지, 기타토지, 산림경영활동지 7개의 단어를 텍스트 프롬프트로 입력하여 학습하였으나 Table 7과 같이 텍스트 프롬프트를 유사한 의미를 지닌 다른 단어를 입력하여 분류지도를 출력하였다. 이러한 프롬프트 기반 분류 방식은 두 가지 중요한 의미를 갖는다. 첫째, 모델이 학습하지 않은 용어를 이해하고 적절히 분류할 수 있는지 평가함으로써 모델의 언어 이해 능력과 일반화 성능을 검증할 수 있다. 둘째, 실제 응용 환경에서 사용자가 다양한 표현으로 토지피복을 검색하고 분류할 수 있는 유연성을 제공한다는 점에서 실용적 가치가 있다.

Table 7 . Accuracy assessment of land cover classification for Area1 based on text prompt composition.

Land Cover Map Based on Land Cover Category NamesLand Cover Map Based on Modified Text Prompts
Text PromptF1-ScoreText PromptF1-ScoreText PromptF1-Score
Forest96.9%Coniferous Forest and Deciduous Forest90.4%Tree89.5%
Cropland81.7%Agricultural Land10.5%Paddy Fields and Dry Fields5.1%
Grassland61.5%Meadow36.6%Pasture5.5%
Wetland94.7%Water67.7%River67.9%
Settlement75.5%Built-up Areas39.9%Residential Areas and Roads36.5%
Bare Land91.8%Bare Soil66.1%Wasteland71.2%
Forestry-managed Land70.8%Forestry Activity Area0.4%Afforested Areas and Deforested Areas31.0%
OA : 90.2%, Kappa : 0.83OA : 75.5%, Kappa : 0.52OA : 74.9%, Kappa : 0.49


텍스트 프롬프트에 따른 Clipseg 모델의 분류 정확도 비교·평가 결과, 프롬프트의 선택이 모델의 성능에 상당한 영향을 미치는 것으로 분석되었다. 산림지의 경우, 약 90% 이상의 높은 성능을 보였으며, 산림지보다 하위 범주 개념의 단어인 Coniferous forest and Deciduous forest와 Tree를 입력하더라도 다양한 산림 관련 용어에 대해 일관성 있는 성능을 보였다. 반면, 농경지와 초지에서는 오히려 구체적인 용어가 성능 저하를 초래했다. 이는 모델이 특정 범주에 대해 일반적인 용어나 빈도가 높은 단어를 더 잘 인식하며, 전문적이거나 드문 용어에 대해서는 인식 능력이 떨어질 수 있음을 시사한다.

습지와 기타토지의 경우, 변형된 텍스트 프롬프트를 사용했을 때 분류 정확도가 약간 감소하였지만 서로 다른 변형된 프롬프트들 사이에서 분류 정확도는 유사하게 분포하였다. 이는 프롬프트의 세부적인 단어 표현을 바꾸더라도 분류 정확도에 큰 변화가 없었기 때문에, 텍스트 프롬프트의 영향보다는 모델이 해당 범주의 이미지 특성에 기반하여 분류를 수행하고 있음을 의미한다. 이와 같이 Clipseg 모델을 적용할 때, 각 토지피복 유형에 가장 적합하고 모델이 잘 이해할 수 있는 프롬프트를 신중하게 선택하는 것이 중요함을 알 수 있다. 특히, 일부 토지피복 유형에서는 프롬프트 최적화나 추가적인 학습을 통해 모델의 성능 개선이 필요한 것으로 판단된다. 향후 연구에서는 다양한 프롬프트에 대한 모델의 반응을 체계적으로 분석하고, 프롬프트 디자인과 모델의 언어적 표현 학습을 강화하여 분류 정확도를 높이는 연구가 진행되어야 할 것으로 판단된다.

4. 결론

본 연구는 토지피복 분류를 위한 멀티모달 모델의 활용 가능성을 평가하기 위해 Clipseg 모델과 Unet, Segformer 모델을 비교·분석하였다. 연구 결과, Clipseg는 연구대상지인 Area1과 Area2 사이의 시간적 차이와 지역적 특성 변화에도 불구하고 세 모델 중 가장 높은 분류 정확도(OA: 83.9%, Kappa: 0.72)를 보였다. 이는 멀티모달 모델이 텍스트 정보를 활용하여 각 토지피복 범주의 의미와 특성을 효과적으로 학습할 수 있음을 나타낸다. Clipseg 모델은 산림지(94.7%), 농경지(78.0%), 정주지(78.4%) 등 주요 토지피복 범주에서 높은 분류 정확도를 보였으나 습지, 기타토지, 산림경영활동지 등에서는 상대적으로 낮은 정확도를 나타냈다. 이는 데이터의 불균형과 분광정보만으로는 분류에 한계점이 있는 것으로 판단된다. 모델 구조적 측면에서 Clipseg는 가장 많은 파라미터와 긴 학습 시간을 필요로 했지만 새로운 환경에서 가장 안정적인 성능을 보였다.

반면, Segformer는 가장 적은 파라미터와 최단 학습 시간으로 상당한 정확도를 달성해 리소스가 제한된 환경에서의 활용 가능성을 보여주었다. 주요 오분류 사례는 범주의 경계부에서 주로 발생했으며, 이는 Clipseg 모델의 디코더 구조 개선의 필요성을 시사한다. 본 연구 결과는 멀티모달 모델이 토지피복 분류에 있어 높은 잠재력을 가지고 있음을 보여준다. 그러나 일부 범주의 낮은 분류 정확도와 오분류 사례는 추가적인 개선이 필요함을 나타낸다. 향후 연구에서는 디코더 구조의 개선, 데이터 불균형 해소를 위한 방법론 개발 그리고 다양한 환경에서의 모델 검증이 필요할 것으로 판단된다.

사사

이 논문은 2024년도 강원대학교 대학회계의 지원을 받아 수행되었습니다.

Conflict of Interest

No potential conflict of interest relevant to this article was reported.

Fig 1.

Figure 1.Research area.
Korean Journal of Remote Sensing 2024; 40: 675-689https://doi.org/10.7780/kjrs.2024.40.5.1.20

Fig 2.

Figure 2.Research method.
Korean Journal of Remote Sensing 2024; 40: 675-689https://doi.org/10.7780/kjrs.2024.40.5.1.20

Fig 3.

Figure 3.Deep learning model architecture.
Korean Journal of Remote Sensing 2024; 40: 675-689https://doi.org/10.7780/kjrs.2024.40.5.1.20

Fig 4.

Figure 4.Training dataset by land cover categories.
Korean Journal of Remote Sensing 2024; 40: 675-689https://doi.org/10.7780/kjrs.2024.40.5.1.20

Fig 5.

Figure 5.Deep learning-based land cover map of Area1.
Korean Journal of Remote Sensing 2024; 40: 675-689https://doi.org/10.7780/kjrs.2024.40.5.1.20

Fig 6.

Figure 6.Deep learning-based land cover map of Area2.
Korean Journal of Remote Sensing 2024; 40: 675-689https://doi.org/10.7780/kjrs.2024.40.5.1.20

Fig 7.

Figure 7.Misclassification cases in deep learning-based land cover map.
Korean Journal of Remote Sensing 2024; 40: 675-689https://doi.org/10.7780/kjrs.2024.40.5.1.20

Table 1 . Land cover distribution of the study area (Unit: ha).

AreaLand Cover Category
Used AreaAgricultural LandForestGrassWetlandBarrenWater
Area179.1 (8.9%)137.6 (15.5%)375.3 (42.4%)236.6 (26.7%)8.2 (0.9%)38.5 (4.4%)9.4 (1.1%)
Area229.9 (3.3)105.8 (11.8%)552.0 (61.7%)98.7 (11.0%)12.1 (1.4%)81.3 (9.1%)15.4 (1.7%)

Table 2 . Definitions by land cover categories.

CategoryDescription
Forest

-. All land with woody vegetation consistent with thresholds used to define forest land..

-. Areas that are vegetation below the limits that can be defined as forests, but potentially forests..

Cropland

-. An agriculture and forestry system with a vegetation structure below the limit that can be regarded as forest land..

-. Cultivable and cultivated land, cultivated forestry: all land with woody vegetation consistent with thresholds used to define forest land..

Grassland

-. Rangelands, pasture sites, woody vegetation below the limit that can be considered as forest land, and other non-herbaceous vegetation such as shrubs, wild, recreational areas, agricultural and silvopastoral systems..

Wetland

-. Areas of peat extraction and land covered or saturated by water for all or part of the year..

-. Reservoirs, natural rivers, and lakes..

Settlement

-. All developed land, including transportation..

-. Infrastructure and human settlements of any size..

Bare Land

-. Bare soil, rock, and all land areas that do not fall into the other five categories..

Forestry-managed Land

-. Forest management areas including logged areas and areas where reforestation has been performed after logging..


Table 3 . Dataset composition for deep learning models.

CategoryTrain DataValidation DataTest Data
Data CountMultimodal Model6532671,225
Semantic Model210901,225
Area Distribution by Land Cover CategoryForest62.0%66.9%61.3%
Cropland10.6%8.4%12.2%
Grassland9.7%9.4%9.8%
Wetland2.4%2.1%0.6%
Settlement4.5%4.7%10.7%
Bare Land8.5%6.8%1.4%
Forestry-managed Land2.2%1.7%4.0%

Table 4 . Results of training and validation of the deep learning model.

CategoryEpochClipsegUnetSegformer
Train Accuracy187.1%29.8%36.0%
50092.9%89.0%76.4%
1,00093.3%91.7%79.7%
1,50094.5%93.3%82.3%
2,00095.4%94.4%84.3%
2,50095.8%95.0%85.6%
3,00096.1%95.5%86.9%
Train Loss10.3610.3629.38
5000.145.083.33
1,0000.134.722.34
1,5000.114.531.88
2,0000.094.401.44
2,5000.084.141.28
3,0000.083.981.04
Validation Accuracy188.1%47.1%67.7%
50092.8%91.5%81.1%
1,00093.3%91.7%85.4%
1,50093.9%91.9%87.5%
2,00094.9%91.9%88.0%
2,50094.9%91.9%88.1%
3,00094.9%91.9%88.2%
Validation Loss10.344.9210.11
5000.142.732.29
1,0000.132.701.53
1,5000.122.631.19
2,0000.102.591.27
2,5000.102.541.42
3,0000.102.531.43
Total Parameters150,595,68134,527,51216,144,008
Training Time10 hours 48 minutes5 hours 46 minutes3 hours 21 minutes

Table 5 . Accuracy assessment of deep learning-based land cover maps.

AreaDeep Learning ModelOverall AccuracyKappa
Area1Clipseg90.2%0.83
Unet93.2%0.88
Segformer86.2%0.76
Area2Clipseg83.9%0.72
Unet69.1%0.47
Segformer66.3%0.36

Table 6 . Confusion matrix for deep learning-based land cover classification map of Area2 (Unit: ha).

ModelCategoryLabel ImageF1-Score
ForestCroplandGrasslandWetlandSettlementBare LandForestry-managed Land
ClipsegForest529.92.818.60.14.00.313.594.7%
Cropland4.695.819.10.55.64.26.778.0%
Grassland6.84.526.90.74.60.30.841.3%
Wetland3.30.20.43.80.40.04.841.7%
Settlement4.34.615.30.178.92.10.078.4%
Bare Land0.41.14.60.22.35.30.040.3%
Forestry-managed Land0.80.31.00.00.00.110.542.7%
Overall Accuracy: 83.9%, Kappa: 0.72
UnetForest485.17.828.12.19.80.720.387.9%
Cropland1.873.414.70.111.52.92.068.0%
Grassland8.419.025.60.721.11.81.731.2%
Wetland23.62.84.42.23.30.34.59.4%
Settlement4.43.85.60.121.91.03.332.3%
Bare Land0.51.52.50.127.15.50.022.3%
Forestry-managed Land26.31.14.90.11.10.14.612.3%
Overall Accuracy: 69.1%, Kappa: 0.48
SegformerForest516.525.452.33.918.51.231.385.3%
Cropland0.333.36.50.112.03.10.043.2%
Grassland3.433.017.20.219.92.30.021.3%
Wetland39.50.61.71.00.80.00.94.2%
Settlement0.20.91.60.120.30.30.033.5%
Bare Land0.75.34.50.126.05.50.120.2%
Forestry-managed Land2.00.31.2-0.50.00.42.3%
Overall Accuracy: 66.4%, Kappa: 0.36

Table 7 . Accuracy assessment of land cover classification for Area1 based on text prompt composition.

Land Cover Map Based on Land Cover Category NamesLand Cover Map Based on Modified Text Prompts
Text PromptF1-ScoreText PromptF1-ScoreText PromptF1-Score
Forest96.9%Coniferous Forest and Deciduous Forest90.4%Tree89.5%
Cropland81.7%Agricultural Land10.5%Paddy Fields and Dry Fields5.1%
Grassland61.5%Meadow36.6%Pasture5.5%
Wetland94.7%Water67.7%River67.9%
Settlement75.5%Built-up Areas39.9%Residential Areas and Roads36.5%
Bare Land91.8%Bare Soil66.1%Wasteland71.2%
Forestry-managed Land70.8%Forestry Activity Area0.4%Afforested Areas and Deforested Areas31.0%
OA : 90.2%, Kappa : 0.83OA : 75.5%, Kappa : 0.52OA : 74.9%, Kappa : 0.49

References

  1. Badrinarayanan, V., Kendall, A., and Cipolla, R., 2017. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12), 2481-2495. https://doi.org/10.1109/tpami.2016.2644615
  2. Baltrušaitis, T., Ahuja, C., and Morency, L. P., 2018. Multimodal machine learning: A survey and taxonomy. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(2), 423-443. https://doi.org/10.1109/tpami.2018.2798607
  3. Cha, S., Won, M., Jang, K., Kim, K., Kim, W., Baek, S., and Lim, J., 2022. Deep learning-based forest fire classification evaluation for application of CAS500-4. Korean Journal of Remote Sensing, 38(6-1), 1273-1283. https://doi.org/10.7780/kjrs.2022.38.6.1.22
  4. Chen, L. C., Papandreou, G., Kokkinos, I., Murphy, K., and Yuille, A. L., 2017. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4), 834-848. https://doi.org/10.1109/tpami.2017.2699184
  5. Cho, K., van Merrienboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., and Bengio, Y., 2014. Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078. https://doi.org/10.48550/arXiv.1406.1078
  6. He, H., and Garcia, E. A., 2009. Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering, 21(9), 1263-1284. https://doi.org/10.1109/TKDE.2008.239
  7. Hong, D., Gao, L., Yokoya, N., Yao, J., Chanussot, J., Du, Q., and Zhang, B., 2020. More diverse means better: Multimodal deep learning meets remote-sensing imagery classification. IEEE Transactions on Geoscience and Remote Sensing, 59(5), 4340-4354. https://doi.org/10.1109/TGRS.2020.3016820
  8. Huang, H., Lin, L., Tong, R., Hu, H., Zhang, Q., Iwamoto, Y., and Wu, J., 2020. UNet 3+: A full-scale connected UNet for medical image segmentation. In Proceedings of the ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, May 4-8, pp. 1055-1059. https://doi.org/10.1109/ICASSP40776.2020.9053405
  9. Huang, M. H., and Rust, R. T., 2018. Artificial intelligence in service. Journal of Service Research, 21(2), 155-172. https://doi.org/10.1177/1094670517752459
  10. Intergovernmental Panel on Climate Change, 2006. 2006 IPCC guidelines for national greenhouse gas inventories. Available online: https://www.ipcc-nggip.iges.or.jp/public/2006gl/index.html (accessed on Feb. 2, 2024)
  11. Kim, E. S., Won, M., Kim, K., Park, J., and Lee, J. S., 2019. Forest management research using optical sensors and remote sensing technologies. Korean Journal of Remote Sensing, 35(6-2), 1031-1035. https://doi.org/10.7780/kjrs.2019.35.6.2.1
  12. Li, X., Li, X., Zhang, L., Cheng, G., Shi, J., and Lin, Z., et al, 2020. Improving semantic segmentation via decoupled body and edge supervision. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J. M., (eds.), Computer Vision - ECCV 2020, Springer, pp. 435-452. https://doi.org/10.1007/978-3-030-58520-4_26
  13. Liu, W., Qiu, J. L., Zheng, W. L., and Lu, B. L., 2021. Comparing recognition performance and robustness of multimodal deep learning models for multimodal emotion recognition. IEEE Transactions on Cognitive and Developmental Systems, 14(2), 715-729. https://doi.org/10.1109/TCDS.2021.3071170
  14. Long, J., Shelhamer, E., and Darrell, T., 2015. Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, June 7-12, pp. 3431-3440. https://doi.org/10.1109/cvpr.2015.7298965
  15. Loshchilov, I., and Hutter, F., 2018. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101. https://doi.org/10.48550/arXiv.1711.05101
  16. Lu, J., Batra, D., Parikh, D., and Lee, S., 2019. Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. arXiv preprint arXiv:1908.02265. https://doi.org/10.48550/arXiv.1908.02265
  17. Lüddecke, T., and Ecker, A., 2022. Image segmentation using text and image prompts. arXiv preprint arXiv:2112.10003. https://doi.org/10.48550/arXiv.2112.10003
  18. Ma, L., Liu, Y., Zhang, X., Ye, Y., Yin, G., and Johnson, B. A., 2019. Deep learning in remote sensing applications: A meta-analysis and review. ISPRS Journal of Photogrammetry and Remote Sensing, 152, 166-177. https://doi.org/10.1016/j.isprsjprs.2019.04.015
  19. Nanni, L., Cuza, D., Lumini, A., Loreggia, A., and Brahnam, S., 2021. Deep ensembles in bioimage segmentation. arXiv preprint arXiv:2112.12955. https://doi.org/10.48550/arXiv.2112.12955
  20. Oktay, O., Schlemper, J., Folgoc, L. L., Lee, M., Heinrich, M., Misawa, K., and Rueckert, D., 2018. Attention U-Net: Learning where to look for the pancreas. arXiv preprint arXiv:1804.03999. https://doi.org/10.48550/arXiv.1804.03999
  21. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., and Agarwal, S., et al, 2021. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020. https://doi.org/10.48550/arXiv.2103.00020
  22. Ronneberger, O., Fischer, P., and Brox, T., 2015. U-Net: Convolutional networks for biomedical image segmentation. In: Navab, N., Hornegger, J., Wells, W., Frangi, A., (eds.), Medical image computing and computer-assisted intervention-MICCAI 2015, Springer, pp. 234-241. https://doi.org/10.1007/978-3-319-24574-4_28
  23. Rouhi, R., Jafari, M., Kasaei, S., and Keshavarzian, P., 2015. Benign and malignant breast tumors classification based on region growing and CNN segmentation. Expert Systems with Applications, 42(3), 990-1002. https://doi.org/10.1016/j.eswa.2014.09.020
  24. Smith, L. N., and Topin, N., 2019. Super-convergence: Very fast training of neural networks using large learning rates. In Proceedings of the SPIE 11006, Artificial Intelligence and Machine Learning for Multi-Domain Operations Applications, Baltimore, MD, USA, Apr. 14-18, pp. 369-386. https://doi.org/10.1117/12.2520589
  25. Solórzano, J. V., Mas, J. F., Gao, Y., and Gallardo-Cruz, J. A., 2021. Land use land cover classification with U-Net: Advantages of combining Sentinel-1 and Sentinel-2 imagery. Remote Sensing, 13(18), 3600. https://doi.org/10.3390/rs13183600
  26. Tan, H., and Bansal, M., 2019. Lxmert: Learning cross-modality encoder representations from transformers. arXiv preprint arXiv:1908.07490. https://doi.org/10.48550/arXiv.1908.07490
  27. Tong, X. Y., Xia, G. S., Lu, Q., Shen, H., Li, S., You, S., and Zhang, L., 2020. Land-cover classification with high-resolution remote sensing images using transferable deep models. Remote Sensing of Environment, 237, 111322. https://doi.org/10.1016/j.rse.2019.111322
  28. Tsimpoukelli, M., Menick, J. L., Cabi, S., Eslami, S. M., Vinyals, O., and Hill, F., 2021. Multimodal few-shot learning with frozen language models. arXiv preprint arXiv:2106.13884. https://doi.org/10.48550/arXiv.2106.13884
  29. Tzepkenlis, A., Marthoglou, K., and Grammalidis, N., 2023. Efficient deep semantic segmentation for land cover classification using sentinel imagery. Remote Sensing, 15(8), 2027. https://doi.org/10.3390/rs15082027
  30. Wang, Y., Huang, W., Sun, F., Xu, T., Rong, Y., and Huang, J., 2020. Deep multimodal fusion by channel exchanging. arXiv preprint arXiv: 2011.05005. https://doi.org/10.48550/arXiv.2011.05005
  31. Woo, H., Cho, S., Jung, G., and Park, J., 2019. Precision forestry using remote sensing techniques: Opportunities and limitations of remote sensing application in forestry. Korean Journal of Remote Sensing, 35(6-2), 1067-1082. https://doi.org/10.7780/kjrs.2019.35.6.2.4
  32. Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J. M., and Luo, P., 2021. SegFormer: Simple and efficient design for semantic segmentation with transformers. arXiv preprint arXiv:2015.15203. https://doi.org/10.48550/arXiv.2105.15203
  33. Zhang, C., Pan, X., Li, H., Gardiner, A., Sargent, I., Hare, J., and Atkinson, P. M., 2018a. A hybrid MLP-CNN classifier for very fine resolution remotely sensed image classification. ISPRS Journal of Photogrammetry and Remote Sensing, 140, 133-144. https://doi.org/10.1016/j.isprsjprs.2017.07.014
  34. Zhang, C., Sargent, I., Pan, X., Li, H., Gardiner, A., Hare, J., and Atkinson, P. M., 2019. Joint deep learning for land cover and land use classification. Remote Sensing of Environment, 221, 173-187. https://doi.org/10.1016/j.rse.2018.11.014
  35. Zhang, Z., Liu, Q., and Wang, Y., 2018b. Road extraction by deep residual U-Net. IEEE Geoscience and Remote Sensing Letters, 15(5), 749-753. https://doi.org/10.1109/LGRS.2018.2802944
  36. Zhang, Z., and Sabuncu, M., 2018. Generalized cross entropy loss for training deep neural networks with noisy labels. arXiv preprint arXiv:1805.07836. https://doi.org/10.48550/arXiv.1805.07836
  37. Zhao, H., Shi, J., Qi, X., Wang, X., and Jia, J., 2017. Pyramid scene parsing network. arXiv preprint arXiv:1612.01105. https://doi.org/10.48550/arXiv.1612.01105
  38. Zhou, Z., Rahman Siddiquee, M. M., Tajbakhsh, N., and Liang, J., 2018. Unet++: A nested U-Net architecture for medical image segmentation. In: Stoyanov, D., Taylor, Z., Carneiro, G., Syeda-Mahmood, T., Martel, A., Maier-Hein, L., (eds.), Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support, Springer, pp. 3-11. https://doi.org/10.1007/978-3-030-00889-5_1
  39. Zhu, X. X., Tuia, D., Mou, L., Xia, G. S., Zhang, L., Xu, F., and Fraundorfer, F., 2017. Deep learning in remote sensing: A comprehensive review and list of resources. IEEE Geoscience and Remote Sensing Magazine, 5(4), 8-36. https://doi.org/10.1109/MGRS.2017.2762307
KSRS
October 2024 Vol. 40, No.5, pp. 419-879

Share

  • line

Related Articles

Korean Journal of Remote Sensing