Research Article

Split Viewer

Korean J. Remote Sens. 2024; 40(5): 495-506

Published online: October 31, 2024

https://doi.org/10.7780/kjrs.2024.40.5.1.7

© Korean Society of Remote Sensing

소규모 농지에 대해 SAM을 활용한 무인기영상의 필지 기반 작물분류

이지상1, 김호진2, 구자명2, 최형욱2, 정도영2*

1한밭대학교 컴퓨터공학과 학부생
2(주)에스아이에이 인공지능연구소 연구원

Received: September 30, 2024; Revised: October 16, 2024; Accepted: October 19, 2024

Parcel-Based Crop Type Classification in UAV Imagery with SAM for Smallholder Farms

Jisang Lee1, Hojin Kim2, Jamyoung Koo2, Hyunguk Choi2, Doyoung Jeong2*

1Undergraduate Student, Department of Computer, Hanbat National University, Daejeon, Republic of Korea
2Research Scientist, AI Research Center, SI Analytics Co., Ltd., Daejeon, Republic of Korea

Correspondence to : Doyoung Jeong
E-mail: doyoungi@si-analytics.ai

Received: September 30, 2024; Revised: October 16, 2024; Accepted: October 19, 2024

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Estimation of crop-specific cultivation area is a fundamental indicator in agricultural policy decision-making, as it helps to determine the production volume for a given year. For efficient surveying of large areas, remote sensing technologies using satellite imagery and unmanned aerial vehicle (UAV) imagery are increasingly being utilized for crop-type classification. In South Korea, where smallholder farms with small fields are predominant, the low spatial resolution of satellite images poses challenges, prompting the use of UAV imagery with higher spatial resolution. Deep learning-based crop type classification, particularly through pixel-based classification methods such as semantic segmentation, faces issues like highly imbalanced class distribution and spectral correction errors caused by vignetting when mosaicing drone images. The proposed methods address the multi-class crop type classification in UAV imagery by approaching it from a parcel-based image classification perspective. By combining outputs from the Segment-Anything model with predefined smart farm maps that represent the agricultural parcel boundaries nationwide, the method successfully identifies the actual agricultural parcel boundaries in the given imagery that were not fully aligned with the vector maps. Parcel-based crop type classification was performed by assigning each image to a single class within the identified parcel boundaries. Performed on the publicly opened dataset with a differently designed form which are semantic segmentation and image classification each, the experiments show that the method has a promising increase of mean Intersection over Union performance. The results suggest that the proposed parcel-based crop type classification for UAV imagery effectively alleviates the imbalance distribution among crop classes, which is observed in semantic segmentation approaches.

Keywords Crop type classification, UAV, Segment anything, Semantic segmentation, Image classification

재배면적 산정은 당해 생산량을 결정하는 가장 근본적인 지표로 광범위한 면적의 효율적 조사가 요구된다. 이를 달성하기 위해 원격탐사기술을 적극적으로 활용하는 사례가 많으며, Sentinel-2, Landsat 시리즈 등 짧은 주기의 반복적인 저해상도 위성영상의 시계열정보를 이용하여 필지에 심어진 작물을 분류하거나(Garnot et al., 2020; Gallo et al., 2023), 작물 생장시점에서 Planet 등 주요 성장기의 중해상도 위성영상의 시계열 세트를 이용한 작물분류(Rao et al., 2021) 등 작물분류를 달성하기 위해 다양한 공간해상도를 갖는 데이터를 활용하고 있다.

그러나 우리나라와 같이 소규모 면적에 여러 작물을 재배하는 혼작 형태의 작부체계에서는 공간해상도가 낮아 저해상도 기반의 위성영상을 활용한 작물분류 기법들을 활용할 수 없으며, 특히 영세한 소규모필지가 우세한 국내 밭 작물 재배환경에서는 낮은 공간해상도의 문제로 혼합화소에 의한 정보의 불확실성 문제가 강하게 대두되어 공간해상도 10 m 이하의 저해상도 위성의 시계열데이터를 활용하기 어렵다(Park et al., 2015). 필지의 평균크기가 작고 다작물이 혼재되어 있는 환경을 보완하기 위한 방법으로써 보다 고해상도 도메인의 데이터를 활용하여 작물분류에 활용하고자 하는 시도가 있다. KOMPSAT, WorldView-2 등의 고해상도 위성영상을 사용하거나 Unmanned Aerial Vehicle (UAV) 등 다양한 도메인을 활용하는 연구가 증가추세에 있다(Yoo et al., 2017; Pandey and Jain, 2022; Park et al., 2015; Bouguettaya et al., 2022).

작물분류 기법은 크게 픽셀기반 작물분류와 필지기반 작물분류로 분류할 수 있다. 픽셀기반 작물분류는 토지피복분류 관점의 연장선상에 존재하는 기법으로, Random Forest를 활용한 픽셀기반 작물분류에서 딥러닝 기반의 의미론적 분할기법까지 발전하였다. 이는 단일 또는 중첩된 시계열입력영상에 대하여 밴드간에 내포 되어있는 정보와 픽셀주변의 공간정보를 함께 활용하여 각 픽셀의 물리적 의미를 추정하여 학습된 데이터의 특징과 유사한 작목으로 할당하는 방법이다. 여러 연구자들은 딥러닝 기술의 발전과 대규모데이터에서 학습된 특징추출 네트워크를 활용함으로써, Recurrent Neural Network (RNN), 2D Convolutional Nerual Network (CNN), 3D CNN 네트워크 등 여러 네트워크 아키텍처(Architecture)와 모듈 디자인의 개선을 통해 작물분류 문제를 접근하였다(Tseng et al., 2021; Rustowicz et al., 2019; Ji et al., 2018).

하지만 의미론적 분할 등 픽셀기반 작물분류 기반의 접근방식은 클래스 불균형문제가 극심한 경우 모델 학습이 취약하며, 밭작물의 색상별 유사성으로 인하여 특정 작목으로의 Neural Collapse가 종종 발할 수 있다. 의미론적 분할 데이터셋은 일반적으로 자연스럽게 심하게 불균형한 클래스 분포를 따르기 때문에 신경망모델의 성능이 이를 학습할 때 성능이 좋지 않으며(Zhong et al., 2023), 작목별 재배면적 불균형이 심한 국내환경에서 데이터를 구축 시 데이터셋 내 클래스 불균형 문제가 부각된다. 이러한 이유로 미 농무부 주관으로 픽셀기반 작물분류기법으로 매년 추론한 미 전역의 작물분류 맵 Cropland Data Layer 분석에서 모델의 성능은 옥수수, 대두 등 미 전역에서 우점하는 작목의 경우 높은 정확도를 보이나 오트밀, 해바라기, 수수와 같이 데이터셋 내 작목의 비중이 적을 경우 작목의 경우 낮은 분류정확도를 보임이 보고되었으며, 모델의 분류가능한 작목의 수를 늘릴 수록 이 단점은 더욱 강하게 부각된다(Lark et al., 2021).

반면에 필지기반 작물분류는 농업필지를 단일작물이 심어져 있는 최소단위로 바라보아 필지 내에 속하는 모든 픽셀이 단일한 작종으로 분류될 것으로 가정하여 이미지 분류의 관점으로 작물을 분류하는 기법이다. 동일한 경계내의 픽셀정보를 수집하여 픽셀세트를 구축하며, RNN 또는 Multilayer Perceptron (MLP) 등 시계열분류방법 또는 컴퓨터비전의 이미지 분류기법을 통해 필지내의 작목을 분류하는 방식이다. 필지기반의 접근방식은 분류 문제가 의미론적분할의 문제정의에 비하여 Label Noise 또는 클래스 불균형 문제를 해결하기 위한 신뢰할만한 방법론이 제시되어 있어(Liu et al., 2020), 클래스 불균형에 비교적 강인한 특징이 있다. 또한 클래스 불균형문제에 있어 면적의 영향을 받지 않고 필지 이미지마다 하나의 클래스가 배정되기에 클래스 불균형문제가 완화된 형태의 데이터구축이 가능하다.

하지만 필지기반 분류는 목표지역의 토지소유권을 구획한 지적도와 달리 동일한 작물이 재식되어 있는 경계인 농업필지경계(Agricultural Parcel Boundary)가 사전에 존재해야 하며, 이는 행정적으로 수집되는 지적과 달라 별도의 농업 필지경계 구축을 위한 필지분할 등 하위 태스크를 요구하는 경우가 일반적이다(Aung et al., 2020). 기존의 필지기반 작물분류 연구에서는 사전에 구축한 필지경계와 함께 Sentinel-2 등의 중저해상도 영상을 함께 사용하였다. Sentinel-2 등의 중저해상도 영상은 Circular Error of 90% (CE90) 기준으로 기하정확도가 1 픽셀(Pixel) 이하로 유지되어 영상과 필지경계 벡터맵 간의 정합성문제가 발생하지 않는다. 그러나 무인기 영상의 경우 지역의 고도 분산, 무인기 내부표정요소 등의 기하정확도에 편차가 발생할 수 있으며, 이러한 이유로 무인기 영상과 필지경계 벡터맵를 함께 사용할 때 무인기 영상과 스마트팜맵(Smart Farm Map)의 정합성 오류가 발생할 수 있다. Fig. 1에서 보이는 바와 같이 필지 경계가 온전히 추출되지 않는 경우가 발생하는 한계가 있다.

Fig. 1. Registration error between smart farm map and UAV imagery: comparison of smart farm map boundaries (yellow) and segment anything model (SAM)-based parcel boundaries on the imagery.

대한민국 농림축산부에서 제공하는 스마트팜맵(농경지 전자지도)은 실제 경작하는 토지의 면적 및 속성을 구획한 지도로 필지기반 작물분류를 위한 농업필지경계의 요구를 충족하며,주어진 경계 내에서 단일 작물을 심었다고 가정 가능하다. 국내 거의 모든 지역에 스마트팜맵이 갖추어져 있으며, 팜맵오픈 API (Application Programming Interface)를 통해 목표지역의 스마트팜맵을 손쉽게 취득 가능하다. 스마트팜맵은 국내지역의 고해상도 위성영상 또는 무인기 기반의작물분류를 필지기반 작물분류로의 접근을 가능하게 한다.

본 연구에서는 무인기 영상을 사용한 작물분류에 있어 필지기반 작물분류 접근과 픽셀기반 작물분류 기법을 비교하여, 필지 별 이미지분류 기법이 의미론적 분할 접근에 비해 다작목 작물분류의 경우에 정확도 향상을 보일 수 있음을 보이고자 한다. 또한, 기존 스마트팜맵과 무인기 영상 간의 정합성 문제로 인해 필지 경계 추출과정에서 발생할 수 있는 오류에 대응하기 위하여, 공개된 Segment Anything Model (SAM)을 활용하여 이미지 특징으로부터 실제 경계를 추출하고, 이를 스마트팜맵과 대조하여 선택하는 SAM 기반 필지서택 알고리즘을 제안한다. 이를 통해 무인기 영상이 내포하는 실제경계를 정확히 반영하고, 무인기 영상에서의 필지기반 작물분류의 장점을 확인하고자 한다.

본 연구에서는 작물분류를 위한 분류모델과 의미론적 분할모델 접근의 성능평가를 위해 과학기술정보통신부의 AI-허브에서 공개된 2종의 상용데이터를 바탕으로 학습데이터를 구축하였다. 농업 AI 데이터 카테고리의 무인기 농경작지 촬영 영상 데이터셋과 노지작물(배추 등) 작황 데이터를 함께 사용하였으며, 주관기관의 도움으로 원본 무인기 영상을 제공받아 데이터셋을 생성하였다.

데이터셋의 무인기 영상은 충남 보령, 충남 홍성, 충남 아산, 전북 고창, 전남 영암, 전남 해남, 강원 대관령, 제주 제주의 8개 지역에서 이루어졌다. 촬영 시점은 대관령의 경우 봄배추 생육시기인 7월에서 8월사이, 타 지역은 가을배추 생육시기인 9월에서 11월 사이에 촬영되었다. 각 지역에 대해 1회에서 3회의 촬영이 진행하였으며, 분류 대상 작물은 샘플 비율이 높은 순서대로 배추, 무, 벼, 콩, 고추, 기타 총 6개 클래스로 분류하였다. 이때 기타 클래스는 앞서 설명한 작목을 제외한 나머지 모든 작목을 포함한다. 무인기 영상은 모두 Micasense-MX로 촬영되었으며, 10 cm 정도의 공간해상도를 갖으나, 데이터셋 생성 시 공간 해상도는 모두 30 cm로 일원화하였으며, 밴드조합은 가시광선영역의 RGB를 선택하였다. 데이터의 Train/Test 분할은 영상 번호를 기준으로 중복없이 8:2 비율로 랜덤하게 분할하였다.

본 연구에서는 동일한 무인기 영상 세트로부터 의미론적 분할과 분류를 위한 두 개의 데이터셋을 각각 생성하여 분석을 진행하였다. 이 데이터셋들은 각각의 목적에 맞게 별도의 처리 과정을 거쳐 구성되었으며, 세부 내용은 아래와 같다.

2.1. 의미론적 분할 데이터셋

의미론적 분할을 위한 데이터셋은 필지별로 라벨링된 벡터파일을 기반으로 무인기 영상 영역에서 래스터(Raster)화하여 생성되었다. 필지를 제외한 나머지 영역은 배경 클래스로 설정되었으며, RGB 무인기 영상과 대조하여 무인기 영상 촬영 범위에 포함되지 않아 영상파일에서 Nan 값으로 기록된 영역에 대해, 해당 영역을 모델의 손실함수 계산 과정에서 제외될 수 있도록 별도의 클래스로 분리하였다.

영상 데이터는 Sliding Window 기법을 통해 1,024 × 1,024 크기의 패치로 분할하였으며, 학습 시에는 이를 Random Crop 기법을 적용하여 512 × 512 크기의 이미지로 활용하였다. 분할된 패치에서 Nan 값의 영역이 차지하는 비율이 30%를 넘을 경우, 해당 패치는 데이터셋에서 제외하였다. 이 과정을 통해 배경과 6개의 작물을 포함하는 총 7개의 다중 클래스 의미론적 분할 데이터셋이 생성되었으며 학습에 사용된 이미지는 총 18,224장, 검증에 사용된 이미지는 4,294장이다. 또한, 의미론적 분할 데이터셋에서 발생한 클래스 분포는 Table 1에 제시된 바와 같으며, 필지 단위로 타일링된 분류 데이터의 예시는 Fig. 2에서 확인할 수 있다. 본 연구에서는 동일한 무인기 영상 세트로부터 의미론적 분할과 분류를 위한 두 개의 데이터셋을 각각 생성하여 분석을 진행하였다. 이 데이터셋들은 각각의 목적에 맞게 별도의 처리 과정을 거쳐 구성되었으며, 세부 내용은 아래와 같다.

Fig. 2. A sample from the semantic segmentation dataset: (a) image of a crop field and (b) label of the crop field.
Fig. 3. Sample images from the classification dataset (3 samples per category).

Table 1 Class distribution of data used in this study

ClassSemantic segmentation (%)Classification (%)
With backgroundWithout background
Background69.7--
Cabbage24.581.153.5
Radish0.92.922.9
Rice1.65.27.1
Bean0.20.62.1
Chili0.10.40.9
Others2.99.711.4


2.2. 분류 데이터셋

본 데이터셋은 SAM과 스마트팜맵을 결합하여 생성되었다. SAM은 이미지에서 필지 폴리곤(Polygon)을 효율적으로 추출하지만 작물 정보는 제공하지 못한다. 반면 스마트팜맵은 필지의 작물 정보를 제공할 수 있으나 갱신 주기가 느리고 폴리곤의 정확성도 떨어진다. 이를 보완하기 위해 SAM을 통해 추출된 폴리곤과 스마트팜맵의 폴리곤을 비교하여 두 폴리곤의 유사도(Intersection over Union, IoU)가 임계값 λ 0.3을 넘는 경우에만 SAM 추출객체에 스마트팜맵의 클래스 정보를 할당하는 방식을 제안하였다. 최종적으로 필지 폴리곤을 이용해 무인기 영상을 마스킹(Masking) 하였으며, 마스킹 시 특정 필지 외곽의 정보는 모두 제거하였다. 이와 같은 과정을 통해 생성된 분류 데이터셋은 학습 이미지 20,746장과 검증 이미지 5,187장을 포함하고 있다. 분류 데이터셋에서도 클래스 분포는 Table 1에 기술되어 있다. 필지 단위 타일링된 분류 데이터의 예시는 Fig. 2와 같다.

작물 분류를 위한 필지 분석 과정에서는 원본 이미지로부터 배경과 필지를 분리한 후, 필지 내부의 작물을 분류하는 작업이 요구된다. 일반적인 방법으로는 의미론적 분할 모델을 사용하여 다중 클래스를 분류하는 방법이 활용된다. 본 연구에서는 의미론적 분할 모델을 적용한 방법과 의미론적 분할의 Foundation 모델인 SAM을 사용하여 필지를 분할한 후, 별도의 분류 작업을 수행하는 방법을 비교하여 제안한 방법의 효용성을 검증하고자 한다.

3.1. 의미론적 분할 모델

무인기영상을 활용한 의미론적 분할 방법의 목표는 사전에 정의된 다중 작물 클래스와 작물이 존재하지 않는 배경을 정확히 분할하는 것이다. 본 연구에서 사용한 의미론적 분할 모델은 Segformer (Xie et al., 2021)를 기반으로 진행하였으며, 백본(Backbone)네트워크를 Inductive Bias 문제에 강인한 Swin Transformer-Large (Liu et al., 2021) 모델로 변경하여 진행하였다. 메인 모델의 안정적인 학습을 위해 Auxiliary Head를 통해 네트워크의 3번째 Layer에서 출력된 특징맵으로부터 의미론적 분할 결과를 추론하는 보조네트워크를 사용하였다. 모델의 입력으로는 원본 이미지를 512 × 512 사이즈로 절삭하여 학습을 진행했고 평가시에는 이를 1,024 × 1,024로 병합하여 진행하였다.

실험에 사용된 훈련 횟수인 Epoch은 12로 설정하였고 손실함수는 Cross Entropy Loss, Dice Loss, Lovasz Loss (Berman et al., 2018)를 결합한 손실함수를 사용하였다. 클래스 간 불균형 문제를 완화하고 경계 영역에서의 정확도를 향상시키기 위한 목적이다. 배치 크기(Batch Size)는 4로 설정하였다. Optimizer는 AdamW를 사용하였으며 초기 학습률은 6e–5로 설정하고 베타 파라미터(Beta Parameter)는 각각 0.9와 0.999로, Weight Decay는 0.01로 적용하였다. 스케줄러는 초기 1 Epoch 동안 선형적으로 증가하며, 이후에는 Power 값 1.0을 기준으로 학습률이 점진적으로 감소하여 Min 값인 0.0에 도달하는 Polynomial 학습률을 사용하였다. 사용한 데이터 증대 기법으로는 Random Rotate, Random Crop, Random Flip (Horizontal, Vertical)을 사용하였다. 모델의 훈련은 AMD EPYC 7643 CPU와 48GB의 메모리를 갖는 2개의 NVIDIA A40 GPU가 탑재된 Ubuntu 22.04.2 LTS 운영체제에서 수행하였다.

3.2. SAM

SAM은 Meta에서 2023년에 공개한 의미론적 분할을 위한 Foundation 모델로, Zero-Shot 작업을 수행할 수 있는 최초의 분할 모델이다(Kirillov et al., 2023). 일반화 성능이 높다는 특징으로 SAM은 모든 컴퓨터 비전 분야에서 광범위하게 사용되는 추세이다. 본 연구에서는 위치보정이 완벽하지 않은 무인기 영상과 스마트팜맵 간의 정합이 완전하지 않은 한계를 극복하기 위하여 이미지로부터 실제 필지경계를 추출하고, 스마트팜맵과 대조하여 선택하는 알고리즘을 위하여 공개된 SAM을 활용한다.

Fig. 4. Architecture of SAM.

3.3. SAM과 분할 모델을 활용한 필지 분할 및 분류 방법

본 연구에서는 SAM을 활용해 필지를 추출하고 분류 모델을 통해 판별하는 2단계의 과정을 제안한다. Phase 1은 입력된 이미지를 SAM을 활용하여 배경과 필지를 효과적으로 분리하고, 분할된 필지 중 Shape 파일에 존재하는 필지와 교차되는 SAM 출력 필지만을 추출한다. Phase 2는 선정된 필지를 기반으로 다중 분류 모델을 학습하여 무인기 영상에서 다중 작물 분류를 수행한다(Fig. 5). SAM을 활용해 배경과 필지를 온전히 분리한 후 배경 픽셀을 제외한 영역에 대해서만 분류를 수행하기 때문에 잡초와 분광 보정 오류와 같은 노이즈에 대해 강인하다. 실험에서는 이미지 인코더(Encoder)로 Vit-L을 사용하는 SAM-L 모델을 채택하였다. 또한, SAM의 사전학습 성능을 최대한 활용하기 위해 입력 원본 무인기영상의 크기를 사전학습된 해상도인 1,024 × 1,024 크기로 절삭하여 모델에 입력하였다. 분류 모델로는 Swin Transformer의 개선 버전인 Swin Transformer V2 Tiny (Liu et al., 2022)를 사용했다.

Fig. 5. The proposed method for crop classification using the SAM and classification model. Phase 1: initial extraction of crop fields intersecting with the shape using SAM. Phase 2: classification and merging of extracted crop fields.

분류 모델의 입력은 SAM에서 추출된 필지 이미지를 대상으로 하였다. 필지 이미지는 짧은 폭을 기준으로 크기를 조정하는 증대 기법인 Resize Edge를 256로 수행하였고, 이후 Center Crop 기법을 적용하여 224 × 224 크기의 이미지(Fig. 6)로 변환한 뒤 학습을 진행하였다. 실험에 사용된 훈련 횟수인 Epoch은 100으로 설정하였고 Loss Function은 Cross Entropy Loss를 사용하였다. 배치 크기는 64로 설정하였으며 Optimizer는 AdamW를 사용하였다. 초기 학습률은 5e–4로 설정하였고, 베타 파라미터는 각각 0.9와 0.999로 설정되었으며 Weight Decay는 0.05로 적용하였다. 학습률 스케줄러는 초기 20 Epoch 동안 LinearLR을 통해 선형적으로 증가시킨 후, CosineAnnealingLR 스케줄러를 사용하여 점진적으로 감소시키는 방식으로 설정하였다.

Fig. 6. The process of converting SAM results into inputs for the classification model: dividing the original image into a crop field, then center cropping the crop field as inputs for SAM.

4.1. 평가방법

본 연구에서는 제안된 방법과 기존 의미론적 분할 모델과 성능을 비교하기 위한 아래 프로토콜을 제안한다. 먼저 SAM을 활용하여 입력 이미지에서 필지를 분할한다. 분할된 필지는 분류 모델의 입력 데이터로 사용된다. 다음, 학습된 분류 모델로 개별 필지의 클래스 정보를 생성한다. 이 정보를 필지의 픽셀에 대응시켜 클래스 별 분할 영역을 만든다. 마지막으로, 클래스 별 영역을 병합하여 전체 이미지의 의미론적 분할 지도를 산출한다.

위의 프로토콜로 생성된 의미론적 분할 영역은 실제 라벨링된 데이터와 비교하여 IoU 지표를 기반으로 평가된다. 이 과정을 통해 의미론적 분할 방법이 아닌 제안된 방법의 결과를 기존 의미론적 분할 모델과 정량적으로 비교 가능하게 변환시킨다.

분류 모델의 성능을 개별 측정하고자 F1-Score를 사용하였다. F1-Score는 정밀도(Precision)와 재현율(Recall)의 조화평균을 계산한 지표로 분류 모델의 전반적인 성능을 평가하기 위해 주로 사용된다. 해당 지표로 분류 모델이 특정 클래스에 과적합하지 않고 균형 잡힌 성능을 보이는지 확인하였다(식 1).

F1=2×Precision×RecallPrecision+Recall

또한, 클래스 별 데이터 불균형 문제를 고려하고자 Micro 정확도를 추가 사용하였다. Micro 정확도는 각 클래스별로 성능을 개별적으로 계산하지 않고, 모든 클래스에서 발생한 참 긍정(True Positive), 거짓 긍정(False Positive), 거짓 부정(False Negative) 값을 합산하여 계산한다. 따라서 클래스 개수와 상관없이 모든 예측에 동일한 가중치를 부여하므로 모델의 전반적인 성능을 평가할 수 있다.

micro Accuracy= c1,,nTP c1,,nFP+ c1,,nTP

4.2. SAM 필지 추출 성능

SAM의 필지 추출 성능을 확인하기 위해 스마트팜맵에 존재하는 필지와 대조를 통하여 추출 정확도를 사용하였고, 추출된 필지가 온전하게 추출 되는지 여부는 IoU를 사용하여 평가하였다. 추가적으로 모델의 크기에 따른 성능을 확인하기 위해 SAM의 모델을 모델의 파라미터 수에 따라 SAM-B, SAM-L, SAM-H 각각에 대해 비교하였으며, 입력 사이즈에 따른 결과를 확인하기 위해 Patch Size를 3가지(2,048, 1,024, 512)로 진행하였다.

실험 결과 모델의 크기를 키울수록 일반적으로 성능이 향상된다는 점을 확인할 수 있었다(Table 2). 입력 이미지의 사이즈는 SAM의 입력 사이즈에 맞게 Patch를 구성한 1,024 × 1,024 사이즈의 이미지가 텍스처 손실이 발생하지 않기 때문에 성능이 제일 높은 것을 확인할 수 있다(Table 3). 그러나 모델의 사이즈가 커질수록 추론에 사용되는 시간이 많이 소요되기 때문에 적절한 크기의 모델을 선택하는 과정이 필요하다. 이후의 실험에서는 중간 사이즈의 모델인 SAM-L을 활용해서 실험을 진행했다.

Table 2 Accuracy and IoU results of parcels extracted by SAM (B, L, H) compared to the ground truth

ModelPatch sizeStrideAccuracyIoU
SAM-B1,024 × 1,0241920.850.87
SAM-L1,024 × 1,0241920.950.88
SAM-H1,024 × 1,0241920.970.88

Table 3 Accuracy and IoU results of parcels extracted by SAM-L compared to the ground truth

ModelPatch sizeStrideAccuracyIoU
SAM-L2,048 × 2,0483840.920.86
SAM-L1,024 × 1,0241920.950.88
SAM-L512 × 512960.950.86


4.3. 분류 모델 성능

분류 모델의 성능은 6가지 클래스(배추, 무, 벼, 콩, 고추, 기타)의 성능을 종합적으로 평가하였다. 데이터셋의 특성상 클래스 불균형 문제가 존재하기 때문에 샘플의 수를 고려하여 클래스 불균형 문제에서 정밀하게 평가하는 지표인 Micro 정확도와 F1-Score를 사용하여 평가하였다.

SAM 기반의 필지선택 모듈의 효용성을 검증하기 위하여, 필지 전처리 방법론에 따른 작물분류 모델의 정확도를 비교하였다(Tables 4, 5). 첫 번째 모델은 스마트팜맵 필지경계 원본일 이용하여 각 필지를 이미지 분할 후 데이터셋을 만들었으며, 두 번째 모델은 SAM 기반의 필지선택과정을 통해 이미지 특징에서 추출한 필지경계를 통해 이미지 분할 후 데이터셋을 생성하였다.

Table 4 F1-Scores of the classification models with and without SAM-based parcel boundary selection

ModelMeanCabbageRadishRiceBeanChiliOthers
SwinV2-T (without SAM)0.830.980.950.980.590.680.82
SwinV2-T (with SAM)0.870.980.960.980.690.730.89

Table 5 Microaccuracy of the classification model

ModelAccuracy
SwinV2-T (without SAM)0.75
SwinV2-T (with SAM)0.79


실험결과 배추, 벼와 같이 타 작목과 비교하여 분광특성이 명백히 구분되는 클래스의 경우에는 두 전처리 방법의 성능차이가 없으나 콩, 고추, 기타 작목과 같이 분광특성이 서로 유사한 경우에는 스마트팜맵 필지경계 원본으로 이미지 분할 시 성능저하를 보였다. 특히, 콩과 고추를 재배하는 필지의 경우 평균재배면적이 배추 재배필지에 비해 작아 무인기영상과 스마트팜맵 간의 정합성차이가 이미지에 주는 영향이 큰것으로 판단되어 분할된 데이터로 학습했을 때 성능저하가 더욱 큰것으로 보인다. 이를 통해 제안한 SAM 기반의 필지 선택 과정이 무인기 영상과 스마트팜맵의 정합성문제를 완화시켜주며, 이를 토대로 생성한 이미지분류 데이터셋을 학습하였을 때 비중이 적은 콩, 고추, 기타 작목에 대해 성능향상을 보일수 있음을 확인하였다.

SAM 기반의 전처리 방법론과 무관하게 데이터가 충분한 데이터가 존재하는 배추, 무, 벼 클래스의 경우 높은 F1-Score를 보이는 것을 확인할 수 있다. 반면 콩, 고추 클래스의 경우 학습에 필요한 데이터가 적다는 문제가 있어 상대적으로 다른 클래스에 비해 낮은 성능을 보였지만 일정 수준 이상의 일반화 성능을 보이는 것을 확인하였다. 추가적으로 부족한 클래스의 데이터를 확보하면 높은 성능을 달성할 수 있을 것으로 예상한다.

4.4. SAM 기반의 필지별 분류 모델 성능

Table 6는 영상 전체를 배경클래스를 포함하여 의미론적 분할을 수행한 결과와 SAM을 이용하여 필지경계를 추출한 지역에 한정하여 의미론적 분할 및 분류모델에 대한 결과를 통합하여 보이고 있다.

Table 6 Performance comparison of IoU between semantic segmentation and SAM + classification models

TaskModelMean (%)CabbageRadishRiceBeanChiliOthers
Full image inferenceSwin-L + CE Loss59.6187.8666.8036.5555.3449.0362.05
Swin-L + Adaptive CE Loss51.1986.0662.0924.8440.5441.3952.23
Swin-L + Focal Loss66.6588.5570.7460.1660.9154.9364.62
Inference on selected area onlySAM + Swin-L (Segmentation)63.4978.5472.3380.0343.2246.8160.03
SAM + SwinV2-T (Proposed Method)71.7676.5777.1386.7262.5859.9567.73


사용한 작물분류 데이터셋에 대해 의미론적 분할 모델의 클래스 불균형을 해소하기 위한 기존 방법의 효용성을 확인하기 위하여 동일한 조건에 대하여 학습에 사용한 손실함수인 Cross Entropy Loss를 각각 Adaptive Cross Entropy Loss와 Focal Loss로 변경하여 실험을 진행하였다. Focal Loss는 쉽게 판별할 수 없는 Hard Negative Sample에 대한 손실함수의 가중치를 증가시키는 방법이며, 데이터셋에 오라벨이 없는 경우 강력한 성능을 발휘할 수 있다. 실험결과, Focal Loss를 사용한 경우에는 Cross Entropy를 사용한 경우와 비교하여 모든 작목에 대해 성능향상을 관찰할 수 있었으며, 이는 Focal Loss 와 같이 어려운 문제에 대해 가중치를 주는 방식이 이 작물의 의미론적 분할 문제에 있어 유의미함을 관찰할 수 있었다. 그러나 여전히 적은 비중의 작목인 콩, 고추 등에서 제안한 SAM 기반의 필지선택 후 작물분류 방식에 비하여 낮은 정확도를 보이며, 이는 Focal Loss와 같이 어려운 문제에 대해 가중치를 주는 방식으로는 본 데이터셋의 클래스 불균형 문제를 해결함에 한계가 있음을 보여준다.

SAM을 이용하여 필지경계를 추출한 지역에 한정하여 각각 의미론적 분할모델과 분류모델을 학습하여 결과를 비교하였다. 이 경우, 의미론적 분할 모델은 Background 지역의 결과는 손실함수 계산에서 제외하는 방식으로 필지경계 내부에 대해서만 배경클래스를 제외하고 학습을 진행하였다. 앞서 추출한 필지경계 내에서 SAM 경계 내부에 대한 의미론적 분할 모델과 분류모델의 성능을 비교하였을 때, 의미론적 분할은 가장 다수이고 독특한 분광정보특성을 갖는 배추 작목에 대해서는 높은 성능을 내나 소수 작목인 콩, 고추, 기타 작목에 대해서는 분류 기법에 비해서 낮은 성능을 보인다. 이는 의미론적분할 결과가 필지 전체가 아닌 픽셀의 분광정보에 의존하기에 영상 경계면에서 왜곡이 발생하거나 방사보정의 문제로 비네팅 현상이 발생할 경우 동일한 필지 내에서도 서로 다른 작목으로 분할을 하는 경우가 존재하기 때문인 것으로 보인다. 특히, 이것은 분광특성이 서로 비슷한 콩, 고추, 기타작목에서 주로 발생하며 서로의 작목을 혼동하는 경향을 관찰할 수 있었다. 그러나 분류모델일 경우에는 필지 내에 분광왜곡이 있는 경우에 대해 다소 강건하여 샘플 수가 적은 작목에 대해서도 비교적 높은 IoU 성능을 보임을 관찰할 수 있었다.

영상 전체에 대한 추론과 제안한 SAM 기반의 필지선택 후 작물분류 모델을 비교하였을 때 평균적으로 10% 이상의 IoU 향상이 있었으며, 특히 벼 클래스에서 50% 이상의 성능 향상을 확인할 수 있었다. 이는 데이터셋에서 배추 클래스의 샘플 수가 다른 클래스에 비해 많아 의미론적 분할 모델에서 성능이 보장되는 반면, 소수 클래스의 경우 성능 저하가 발생한 것으로 분석된다. 하지만 제안한 방법론은 클래스 간 데이터 불균형이 존재하는 상황에서도 모든 클래스에서 일관성 있는 성능을 보이는 것을 확인할 수 있다. 이는 제안된 방법이 불균형한 클래스 분포를 가진 데이터셋에서도 우수한 성능을 유지할 수 있음을 입증한다.

또한, 불균형한 클래스 분포가 있는 데이터셋에서 성능을 향상시키는 연구는 주로 분할 방법보다는 분류 방법에서 활발히 이루어지고 있다. 제안한 단계적 필지 분할 및 분류 방법은 이러한 문제를 해결하는 데 효과적이며, 향후 성능을 더욱 개선할 수 있는 가능성이 존재한다.

Fig. 7은 의미론적 분할 모델과 SAM기반 분할 모델의 단일한 무인기영상을 전체를 추론한 결과이다. 매핑 결과의 A, B 확인 시 의미론적 분할 모델의 경우 분할된 필지의 경계면이 온전하지 못한 모습을 보이는 것을 확인할 수 있다. 하지만 SAM 모델의 경우 필지의 경계면이 배경과 온전하게 분리된 모습을 볼 수 있다. 클래스가 불균형한 데이터 셋의 경우 의미론적 분할 모델의 학습의 안정성이 떨어져 성능의 제한이 존재하지만 파운데이션 모델로 만들어진 SAM 모델의 경우 별도의 학습이 필요하지 않아 적은 클래스의 데이터셋에서도 성능의 일관성이 있다. 또한 분광보정 오류가 존재하더라도 성능에 영향을 미치지 않는다는 점도 큰 특징이다.

Fig. 7. Qualitative analysis of results. Row 1: original image and ground truth label. Row 2: SAM + classification result and semantic segmentation result.

Fig. 8은 분류 모델이 이미지 내 필지의 클래스를 예측할 때, 어느 영역에 집중하는지를 Class Activation Map (CAM)으로 시각화한 결과이다(Zhou at el., 2016). 이를 통해 분류 모델이 실제로 작물 정보에 특징적인 영역, 필지별 특징점에 기반하여 작물 분류를 수행하고 있음을 보여준다.

Fig. 8. Original image and CAM results of the classification model. (a) Cabbage and (b) radish.

반면, 기존 의미론적 분할 모델은 픽셀 단위로 분류를 수행하므로 주변의 모든 픽셀을 고려한다. 이로 인해 불필요한 배경 픽셀까지 분석 과정에서 전부 고려되며, 모델은 개별 필지의 특징점을 찾고 전체 필지에 적용하기까지 불필요한 비교 연산을 수행해야 한다. 그러나 제안된 모델은 SAM을 사용하여 먼저 필지의 경계를 구분하고, 분류모델은 필지 내 정보만 활용하여 작물 분류를 수행한다. 이를 통해 주변 배경 픽셀의 영향을 미리 제거함으로써 분석의 정확성을 높인다. 또한, 단일 필지 내에서도 분류 모델은 유의미한 특징을 강조하고 나머지 영역을 배제할 수 있다. 이러한 원인으로 Table 6에서 SAM으로 추출한 필지경계 내에서 의미론적 분할 및 작물분류 시 소수작목에 대해 유의미한 성능차이가 발생하는 것으로 추측된다.

본 연구에서는 무인기 영상을 활용한 작물 분류 시 발생하는 문제를 해결하기 위해 SAM과 의미론적 분할 모델을 단계적으로 적용하는 방법을 제안하였다. 제안한 방법은 필지와 배경 간의 영향을 효과적으로 분리하여 작물 분류 성능에 배경의 영향을 최소화 시켜 성능을 향상시키는 데 중점을 두고 있다. 본 연구에서 사용한 데이터셋은 배추, 무, 벼, 콩, 고추, 기타의 6개 클래스 작물을 포함하며, 클래스 간 데이터 불균형을 고려하여 실제 환경에서의 이미지 취득이 제한된 조건을 반영하였다. 실험 결과, 기존 의미론적 분할 모델은 클래스 비중이 큰 배추의 경우 높은 성능을 보였으나, 상대적으로 데이터가 부족한 나머지 작목에서 성능 저하가 나타났다. 반면, 제안된 방법은 클래스 분포에 관계없이 전반적으로 우수한 성능을 보였으며, 특히 필지와 배경을 분리하여 처리할 때 성능이 크게 향상됨을 확인하였다.

본 연구의 한계점으로는 다년도 데이터셋을 포함하지 못한 점과 제안한 SAM 기반 필지분할 IoU 정확도가 SAM의 필지분할 성능에 의존한다는 점이다. 본 연구에서 사용된 데이터셋은 2021년과 2022년에 촬영된 영상만을 사용하여, 추후 촬영되는 무인기 영상 데이터를 사용할 경우 모델의 추론 성능이 저하될 가능성이 있다. 또한, 무인기 영상의 방사보정은 필수적이며, 본 연구에서 사용된 Micasense-MX 외에 다양한 센서 및 방사보정 알고리즘 적용여부에 대한 제안 모델의 정확도를 검증할 실험이 충분하지 않다. 이는 데이터 확보 측면에서도 한계가 있으며, 무인기 영상을 활용한 데이터 수집의 라벨링과정이 전적으로 현장 조사를 기반으로 하기 때문에 시간과 자원이 많이 소요되어 데이터 확보에 어려움이 있다. 또한, 제안된 모델이 우수한 분류 정확도를 보이더라도 최종 재배 면적 산정을 위한 IoU 값은 SAM 기반 분할 정확도에 크게 의존한다. 만약 SAM 분할 과정에서 필지가 누락되거나 정확한 분할이 이루어지지 않는다면, 모델의 성능과 실용성 모두 저하될 수 있다.

이러한 한계들을 보완하기 위해 향후 연구에서는 다년도 데이터를 포함한 대규모 데이터셋을 확보하고, 다양한 센서에 적합한 표준화된 방사보정 알고리즘의 활용이 필요하다. 또한, SAM의 분할 실패 문제를 보완하기 위한 전처리 과정의 개선과 더불어 SAM이외의 다른 분할 알고리즘과의 융합을 통해 분할 정확도를 향상시키는 방안도 고려해야 할 것이다.

본 논문은 농촌진흥청 연구사업(과제번호: PJ017042)의 지원에 의해 이루어진 것임.

No potential conflict of interest relevant to this article was reported.

  1. Aung, H. L., Uzkent, B., Burke, M., Lobell, D., and Ermon, S., 2020. Farm parcel delineation using spatio-temporal convolutional networks. In Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Seattle, WA, USA, June 14-19, pp. 340-349. https://doi.org/10.1109/CVPRW50498.2020.00046
  2. Berman, M., Triki, A. R., and Blaschko, M. B., 2018. The Lovasz-softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks. In Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake City, UT, USA, June 18-21, pp. 4413-4421. https://doi.org/10.1109/CVPR.2018.00464
  3. Bouguettaya, A., Zarzour, H., Kechida, A., and Taberkit, A. M., 2022. Deep learning techniques to classify agricultural crops through UAV imagery: A review. Neural Computing and Applications, 34(12), 9511-9536. https://doi.org/10.1007/s00521-022-07104-9
  4. Gallo, I., Ranghetti, L., Landro, N., La Grassa, R., and Boschetti, M., 2023. In-season and dynamic crop mapping using 3D convolution neural networks and Sentinel-2 time series. ISPRS Journal of Photogrammetry and Remote Sensing, 195, 335-352. https://doi.org/10.1016/j.isprsjprs.2022.12.005
  5. Garnot, V., Landrieu, L., Giordano, S., and Chehata, N., 2020. Satellite image time series classification with pixel-set encoders and temporal self-attention. In Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, June 13-19, pp. 12322-12331. https://doi.org/10.1109/CVPR42600.2020.01234
  6. Ji, S., Zhang, C., Xu, A., Shi, Y., and Duan, Y., 2018. 3D convolutional neural networks for crop classification with multi-temporal remote sensing images. Remote Sensing, 10(1), 75. https://doi.org/10.3390/rs10010075
  7. Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., and Gustafson, L., et al, 2023. Segment anything. In Proceedings of the 2023 IEEE/CVF International Conference on Computer Vision (ICCV), Paris, France, Oct. 1-6, pp. 4015-4026. https://doi.org/10.1109/ICCV51070.2023.00371
  8. Lark, T. J., Schelly, I. H., and Gibbs, H. K., 2021. Accuracy, bias, and improvements in mapping crops and cropland across the United States using the USDA cropland data layer. Remote Sensing, 13(5), 968-984. https://doi.org/10.3390/rs13050968
  9. Liu, S., Niles-Weed, J., Razavian, N., and Fernandez-Granda, C., 2020. Early-learning regularization prevents memorization of noisy labels. arXiv preprint arXiv:2007.00151. https://doi.org/10.48550/arXiv.2007.00151
  10. Liu, Z., Hu, H., Lin, Y., Yao, Z., Xie, Z., and Wei, Y., et al, 2022. Swin transformer V2: Scaling up capacity and resolution. In Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, LA, USA, June 18-24, pp. 11999-12009. https://doi.org/10.1109/CVPR52688.2022.01170
  11. Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., and Zhang, Z., et al, 2021. Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada, Oct. 10-17, pp. 10012-10022. https://doi.org/10.1109/ICCV48922.2021.00986
  12. Pandey, A., and Jain, K., 2022. An intelligent system for crop identification and classification from UAV images using conjugated dense convolutional neural network. Computers and Electronics in Agriculture, 192, 106543. https://doi.org/10.1016/j.compag.2021.106543
  13. Park, J. K., and Park, J. H., 2015. Crops classification using imagery of unmanned aerial vehicle (UAV). Journal of The Korean Society of Agricultural Engineers, 57(6), 91-97. https://doi.org/10.5389/KSAE.2015.57.6.091
  14. Rao, P., Zhou, W., Bhattarai, N., Srivastava, A. K., Singh, B., Poonia, S., Lobell, D. B., and Jain, M., 2021. Using Sentinel-1, Sentinel-2, and planet imagery to map crop type of smallholder farms. Remote Sensing, 13(10), 1870. https://doi.org/10.3390/rs13101870
  15. Rustowicz, R. M., Cheong, R., Wang, L., Ermon, S., Burke, M., and Lobell, D., 2019. Semantic segmentation of crop type in Africa: A novel dataset and analysis of deep learning methods. In Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Long Beach, CA, USA, June 15-20, pp. 75-82.
  16. Tseng, G., Kerner, H., Nakalembe, C., and Becker-Reshef, I., 2021. Learning to predict crop type from heterogeneous sparse labels using meta-learning. In Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Nashville, TN, USA, June 19-25, pp. 1111-1120. https://doi.org/10.1109/CVPRW53098.2021.00122
  17. Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J. M., and Luo, P., 2021. SegFormer: Simple and efficient design for semantic segmentation with transformers. In Proceedings of the 34th Advances in Neural Information Processing Systems (NeurIPS), Virtual, Dec. 6-14, pp. 12077-12090.
  18. Yoo, H. Y., Lee, K. D., Na, S. I., Park, C. W., and Park, N. W., 2017. Field crop classification using multi-temporal high-resolution satellite imagery: A case study on garlic/onion field. Korean Journal of Remote Sensing, 33(5-2), 621-630. https://doi.org/10.7780/KJRS.2017.33.5.2.2
  19. Zhong, Z., Cui, J., Yang, Y., Wu, X., Qi, X., Zhang, X., and Jia, J., 2023. Understanding imbalanced semantic segmentation through neural collapse. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 17-24, Vancouver, BC, Canada, pp. 19550-19560.
  20. Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., and Torralba, A., 2016. Learning deep features for discriminative localization. In Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, June 27-30, pp. 2921-2929. https://doi.org/10.1109/CVPR.2016.319

Research Article

Korean J. Remote Sens. 2024; 40(5): 495-506

Published online October 31, 2024 https://doi.org/10.7780/kjrs.2024.40.5.1.7

Copyright © Korean Society of Remote Sensing.

소규모 농지에 대해 SAM을 활용한 무인기영상의 필지 기반 작물분류

이지상1, 김호진2, 구자명2, 최형욱2, 정도영2*

1한밭대학교 컴퓨터공학과 학부생
2(주)에스아이에이 인공지능연구소 연구원

Received: September 30, 2024; Revised: October 16, 2024; Accepted: October 19, 2024

Parcel-Based Crop Type Classification in UAV Imagery with SAM for Smallholder Farms

Jisang Lee1, Hojin Kim2, Jamyoung Koo2, Hyunguk Choi2, Doyoung Jeong2*

1Undergraduate Student, Department of Computer, Hanbat National University, Daejeon, Republic of Korea
2Research Scientist, AI Research Center, SI Analytics Co., Ltd., Daejeon, Republic of Korea

Correspondence to:Doyoung Jeong
E-mail: doyoungi@si-analytics.ai

Received: September 30, 2024; Revised: October 16, 2024; Accepted: October 19, 2024

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Abstract

Estimation of crop-specific cultivation area is a fundamental indicator in agricultural policy decision-making, as it helps to determine the production volume for a given year. For efficient surveying of large areas, remote sensing technologies using satellite imagery and unmanned aerial vehicle (UAV) imagery are increasingly being utilized for crop-type classification. In South Korea, where smallholder farms with small fields are predominant, the low spatial resolution of satellite images poses challenges, prompting the use of UAV imagery with higher spatial resolution. Deep learning-based crop type classification, particularly through pixel-based classification methods such as semantic segmentation, faces issues like highly imbalanced class distribution and spectral correction errors caused by vignetting when mosaicing drone images. The proposed methods address the multi-class crop type classification in UAV imagery by approaching it from a parcel-based image classification perspective. By combining outputs from the Segment-Anything model with predefined smart farm maps that represent the agricultural parcel boundaries nationwide, the method successfully identifies the actual agricultural parcel boundaries in the given imagery that were not fully aligned with the vector maps. Parcel-based crop type classification was performed by assigning each image to a single class within the identified parcel boundaries. Performed on the publicly opened dataset with a differently designed form which are semantic segmentation and image classification each, the experiments show that the method has a promising increase of mean Intersection over Union performance. The results suggest that the proposed parcel-based crop type classification for UAV imagery effectively alleviates the imbalance distribution among crop classes, which is observed in semantic segmentation approaches.

Keywords: Crop type classification, UAV, Segment anything, Semantic segmentation, Image classification

1. 서론

재배면적 산정은 당해 생산량을 결정하는 가장 근본적인 지표로 광범위한 면적의 효율적 조사가 요구된다. 이를 달성하기 위해 원격탐사기술을 적극적으로 활용하는 사례가 많으며, Sentinel-2, Landsat 시리즈 등 짧은 주기의 반복적인 저해상도 위성영상의 시계열정보를 이용하여 필지에 심어진 작물을 분류하거나(Garnot et al., 2020; Gallo et al., 2023), 작물 생장시점에서 Planet 등 주요 성장기의 중해상도 위성영상의 시계열 세트를 이용한 작물분류(Rao et al., 2021) 등 작물분류를 달성하기 위해 다양한 공간해상도를 갖는 데이터를 활용하고 있다.

그러나 우리나라와 같이 소규모 면적에 여러 작물을 재배하는 혼작 형태의 작부체계에서는 공간해상도가 낮아 저해상도 기반의 위성영상을 활용한 작물분류 기법들을 활용할 수 없으며, 특히 영세한 소규모필지가 우세한 국내 밭 작물 재배환경에서는 낮은 공간해상도의 문제로 혼합화소에 의한 정보의 불확실성 문제가 강하게 대두되어 공간해상도 10 m 이하의 저해상도 위성의 시계열데이터를 활용하기 어렵다(Park et al., 2015). 필지의 평균크기가 작고 다작물이 혼재되어 있는 환경을 보완하기 위한 방법으로써 보다 고해상도 도메인의 데이터를 활용하여 작물분류에 활용하고자 하는 시도가 있다. KOMPSAT, WorldView-2 등의 고해상도 위성영상을 사용하거나 Unmanned Aerial Vehicle (UAV) 등 다양한 도메인을 활용하는 연구가 증가추세에 있다(Yoo et al., 2017; Pandey and Jain, 2022; Park et al., 2015; Bouguettaya et al., 2022).

작물분류 기법은 크게 픽셀기반 작물분류와 필지기반 작물분류로 분류할 수 있다. 픽셀기반 작물분류는 토지피복분류 관점의 연장선상에 존재하는 기법으로, Random Forest를 활용한 픽셀기반 작물분류에서 딥러닝 기반의 의미론적 분할기법까지 발전하였다. 이는 단일 또는 중첩된 시계열입력영상에 대하여 밴드간에 내포 되어있는 정보와 픽셀주변의 공간정보를 함께 활용하여 각 픽셀의 물리적 의미를 추정하여 학습된 데이터의 특징과 유사한 작목으로 할당하는 방법이다. 여러 연구자들은 딥러닝 기술의 발전과 대규모데이터에서 학습된 특징추출 네트워크를 활용함으로써, Recurrent Neural Network (RNN), 2D Convolutional Nerual Network (CNN), 3D CNN 네트워크 등 여러 네트워크 아키텍처(Architecture)와 모듈 디자인의 개선을 통해 작물분류 문제를 접근하였다(Tseng et al., 2021; Rustowicz et al., 2019; Ji et al., 2018).

하지만 의미론적 분할 등 픽셀기반 작물분류 기반의 접근방식은 클래스 불균형문제가 극심한 경우 모델 학습이 취약하며, 밭작물의 색상별 유사성으로 인하여 특정 작목으로의 Neural Collapse가 종종 발할 수 있다. 의미론적 분할 데이터셋은 일반적으로 자연스럽게 심하게 불균형한 클래스 분포를 따르기 때문에 신경망모델의 성능이 이를 학습할 때 성능이 좋지 않으며(Zhong et al., 2023), 작목별 재배면적 불균형이 심한 국내환경에서 데이터를 구축 시 데이터셋 내 클래스 불균형 문제가 부각된다. 이러한 이유로 미 농무부 주관으로 픽셀기반 작물분류기법으로 매년 추론한 미 전역의 작물분류 맵 Cropland Data Layer 분석에서 모델의 성능은 옥수수, 대두 등 미 전역에서 우점하는 작목의 경우 높은 정확도를 보이나 오트밀, 해바라기, 수수와 같이 데이터셋 내 작목의 비중이 적을 경우 작목의 경우 낮은 분류정확도를 보임이 보고되었으며, 모델의 분류가능한 작목의 수를 늘릴 수록 이 단점은 더욱 강하게 부각된다(Lark et al., 2021).

반면에 필지기반 작물분류는 농업필지를 단일작물이 심어져 있는 최소단위로 바라보아 필지 내에 속하는 모든 픽셀이 단일한 작종으로 분류될 것으로 가정하여 이미지 분류의 관점으로 작물을 분류하는 기법이다. 동일한 경계내의 픽셀정보를 수집하여 픽셀세트를 구축하며, RNN 또는 Multilayer Perceptron (MLP) 등 시계열분류방법 또는 컴퓨터비전의 이미지 분류기법을 통해 필지내의 작목을 분류하는 방식이다. 필지기반의 접근방식은 분류 문제가 의미론적분할의 문제정의에 비하여 Label Noise 또는 클래스 불균형 문제를 해결하기 위한 신뢰할만한 방법론이 제시되어 있어(Liu et al., 2020), 클래스 불균형에 비교적 강인한 특징이 있다. 또한 클래스 불균형문제에 있어 면적의 영향을 받지 않고 필지 이미지마다 하나의 클래스가 배정되기에 클래스 불균형문제가 완화된 형태의 데이터구축이 가능하다.

하지만 필지기반 분류는 목표지역의 토지소유권을 구획한 지적도와 달리 동일한 작물이 재식되어 있는 경계인 농업필지경계(Agricultural Parcel Boundary)가 사전에 존재해야 하며, 이는 행정적으로 수집되는 지적과 달라 별도의 농업 필지경계 구축을 위한 필지분할 등 하위 태스크를 요구하는 경우가 일반적이다(Aung et al., 2020). 기존의 필지기반 작물분류 연구에서는 사전에 구축한 필지경계와 함께 Sentinel-2 등의 중저해상도 영상을 함께 사용하였다. Sentinel-2 등의 중저해상도 영상은 Circular Error of 90% (CE90) 기준으로 기하정확도가 1 픽셀(Pixel) 이하로 유지되어 영상과 필지경계 벡터맵 간의 정합성문제가 발생하지 않는다. 그러나 무인기 영상의 경우 지역의 고도 분산, 무인기 내부표정요소 등의 기하정확도에 편차가 발생할 수 있으며, 이러한 이유로 무인기 영상과 필지경계 벡터맵를 함께 사용할 때 무인기 영상과 스마트팜맵(Smart Farm Map)의 정합성 오류가 발생할 수 있다. Fig. 1에서 보이는 바와 같이 필지 경계가 온전히 추출되지 않는 경우가 발생하는 한계가 있다.

Figure 1. Registration error between smart farm map and UAV imagery: comparison of smart farm map boundaries (yellow) and segment anything model (SAM)-based parcel boundaries on the imagery.

대한민국 농림축산부에서 제공하는 스마트팜맵(농경지 전자지도)은 실제 경작하는 토지의 면적 및 속성을 구획한 지도로 필지기반 작물분류를 위한 농업필지경계의 요구를 충족하며,주어진 경계 내에서 단일 작물을 심었다고 가정 가능하다. 국내 거의 모든 지역에 스마트팜맵이 갖추어져 있으며, 팜맵오픈 API (Application Programming Interface)를 통해 목표지역의 스마트팜맵을 손쉽게 취득 가능하다. 스마트팜맵은 국내지역의 고해상도 위성영상 또는 무인기 기반의작물분류를 필지기반 작물분류로의 접근을 가능하게 한다.

본 연구에서는 무인기 영상을 사용한 작물분류에 있어 필지기반 작물분류 접근과 픽셀기반 작물분류 기법을 비교하여, 필지 별 이미지분류 기법이 의미론적 분할 접근에 비해 다작목 작물분류의 경우에 정확도 향상을 보일 수 있음을 보이고자 한다. 또한, 기존 스마트팜맵과 무인기 영상 간의 정합성 문제로 인해 필지 경계 추출과정에서 발생할 수 있는 오류에 대응하기 위하여, 공개된 Segment Anything Model (SAM)을 활용하여 이미지 특징으로부터 실제 경계를 추출하고, 이를 스마트팜맵과 대조하여 선택하는 SAM 기반 필지서택 알고리즘을 제안한다. 이를 통해 무인기 영상이 내포하는 실제경계를 정확히 반영하고, 무인기 영상에서의 필지기반 작물분류의 장점을 확인하고자 한다.

2. 연구 자료

본 연구에서는 작물분류를 위한 분류모델과 의미론적 분할모델 접근의 성능평가를 위해 과학기술정보통신부의 AI-허브에서 공개된 2종의 상용데이터를 바탕으로 학습데이터를 구축하였다. 농업 AI 데이터 카테고리의 무인기 농경작지 촬영 영상 데이터셋과 노지작물(배추 등) 작황 데이터를 함께 사용하였으며, 주관기관의 도움으로 원본 무인기 영상을 제공받아 데이터셋을 생성하였다.

데이터셋의 무인기 영상은 충남 보령, 충남 홍성, 충남 아산, 전북 고창, 전남 영암, 전남 해남, 강원 대관령, 제주 제주의 8개 지역에서 이루어졌다. 촬영 시점은 대관령의 경우 봄배추 생육시기인 7월에서 8월사이, 타 지역은 가을배추 생육시기인 9월에서 11월 사이에 촬영되었다. 각 지역에 대해 1회에서 3회의 촬영이 진행하였으며, 분류 대상 작물은 샘플 비율이 높은 순서대로 배추, 무, 벼, 콩, 고추, 기타 총 6개 클래스로 분류하였다. 이때 기타 클래스는 앞서 설명한 작목을 제외한 나머지 모든 작목을 포함한다. 무인기 영상은 모두 Micasense-MX로 촬영되었으며, 10 cm 정도의 공간해상도를 갖으나, 데이터셋 생성 시 공간 해상도는 모두 30 cm로 일원화하였으며, 밴드조합은 가시광선영역의 RGB를 선택하였다. 데이터의 Train/Test 분할은 영상 번호를 기준으로 중복없이 8:2 비율로 랜덤하게 분할하였다.

본 연구에서는 동일한 무인기 영상 세트로부터 의미론적 분할과 분류를 위한 두 개의 데이터셋을 각각 생성하여 분석을 진행하였다. 이 데이터셋들은 각각의 목적에 맞게 별도의 처리 과정을 거쳐 구성되었으며, 세부 내용은 아래와 같다.

2.1. 의미론적 분할 데이터셋

의미론적 분할을 위한 데이터셋은 필지별로 라벨링된 벡터파일을 기반으로 무인기 영상 영역에서 래스터(Raster)화하여 생성되었다. 필지를 제외한 나머지 영역은 배경 클래스로 설정되었으며, RGB 무인기 영상과 대조하여 무인기 영상 촬영 범위에 포함되지 않아 영상파일에서 Nan 값으로 기록된 영역에 대해, 해당 영역을 모델의 손실함수 계산 과정에서 제외될 수 있도록 별도의 클래스로 분리하였다.

영상 데이터는 Sliding Window 기법을 통해 1,024 × 1,024 크기의 패치로 분할하였으며, 학습 시에는 이를 Random Crop 기법을 적용하여 512 × 512 크기의 이미지로 활용하였다. 분할된 패치에서 Nan 값의 영역이 차지하는 비율이 30%를 넘을 경우, 해당 패치는 데이터셋에서 제외하였다. 이 과정을 통해 배경과 6개의 작물을 포함하는 총 7개의 다중 클래스 의미론적 분할 데이터셋이 생성되었으며 학습에 사용된 이미지는 총 18,224장, 검증에 사용된 이미지는 4,294장이다. 또한, 의미론적 분할 데이터셋에서 발생한 클래스 분포는 Table 1에 제시된 바와 같으며, 필지 단위로 타일링된 분류 데이터의 예시는 Fig. 2에서 확인할 수 있다. 본 연구에서는 동일한 무인기 영상 세트로부터 의미론적 분할과 분류를 위한 두 개의 데이터셋을 각각 생성하여 분석을 진행하였다. 이 데이터셋들은 각각의 목적에 맞게 별도의 처리 과정을 거쳐 구성되었으며, 세부 내용은 아래와 같다.

Figure 2. A sample from the semantic segmentation dataset: (a) image of a crop field and (b) label of the crop field.
Figure 3. Sample images from the classification dataset (3 samples per category).

Table 1 . Class distribution of data used in this study.

ClassSemantic segmentation (%)Classification (%)
With backgroundWithout background
Background69.7--
Cabbage24.581.153.5
Radish0.92.922.9
Rice1.65.27.1
Bean0.20.62.1
Chili0.10.40.9
Others2.99.711.4


2.2. 분류 데이터셋

본 데이터셋은 SAM과 스마트팜맵을 결합하여 생성되었다. SAM은 이미지에서 필지 폴리곤(Polygon)을 효율적으로 추출하지만 작물 정보는 제공하지 못한다. 반면 스마트팜맵은 필지의 작물 정보를 제공할 수 있으나 갱신 주기가 느리고 폴리곤의 정확성도 떨어진다. 이를 보완하기 위해 SAM을 통해 추출된 폴리곤과 스마트팜맵의 폴리곤을 비교하여 두 폴리곤의 유사도(Intersection over Union, IoU)가 임계값 λ 0.3을 넘는 경우에만 SAM 추출객체에 스마트팜맵의 클래스 정보를 할당하는 방식을 제안하였다. 최종적으로 필지 폴리곤을 이용해 무인기 영상을 마스킹(Masking) 하였으며, 마스킹 시 특정 필지 외곽의 정보는 모두 제거하였다. 이와 같은 과정을 통해 생성된 분류 데이터셋은 학습 이미지 20,746장과 검증 이미지 5,187장을 포함하고 있다. 분류 데이터셋에서도 클래스 분포는 Table 1에 기술되어 있다. 필지 단위 타일링된 분류 데이터의 예시는 Fig. 2와 같다.

3. 연구 방법

작물 분류를 위한 필지 분석 과정에서는 원본 이미지로부터 배경과 필지를 분리한 후, 필지 내부의 작물을 분류하는 작업이 요구된다. 일반적인 방법으로는 의미론적 분할 모델을 사용하여 다중 클래스를 분류하는 방법이 활용된다. 본 연구에서는 의미론적 분할 모델을 적용한 방법과 의미론적 분할의 Foundation 모델인 SAM을 사용하여 필지를 분할한 후, 별도의 분류 작업을 수행하는 방법을 비교하여 제안한 방법의 효용성을 검증하고자 한다.

3.1. 의미론적 분할 모델

무인기영상을 활용한 의미론적 분할 방법의 목표는 사전에 정의된 다중 작물 클래스와 작물이 존재하지 않는 배경을 정확히 분할하는 것이다. 본 연구에서 사용한 의미론적 분할 모델은 Segformer (Xie et al., 2021)를 기반으로 진행하였으며, 백본(Backbone)네트워크를 Inductive Bias 문제에 강인한 Swin Transformer-Large (Liu et al., 2021) 모델로 변경하여 진행하였다. 메인 모델의 안정적인 학습을 위해 Auxiliary Head를 통해 네트워크의 3번째 Layer에서 출력된 특징맵으로부터 의미론적 분할 결과를 추론하는 보조네트워크를 사용하였다. 모델의 입력으로는 원본 이미지를 512 × 512 사이즈로 절삭하여 학습을 진행했고 평가시에는 이를 1,024 × 1,024로 병합하여 진행하였다.

실험에 사용된 훈련 횟수인 Epoch은 12로 설정하였고 손실함수는 Cross Entropy Loss, Dice Loss, Lovasz Loss (Berman et al., 2018)를 결합한 손실함수를 사용하였다. 클래스 간 불균형 문제를 완화하고 경계 영역에서의 정확도를 향상시키기 위한 목적이다. 배치 크기(Batch Size)는 4로 설정하였다. Optimizer는 AdamW를 사용하였으며 초기 학습률은 6e–5로 설정하고 베타 파라미터(Beta Parameter)는 각각 0.9와 0.999로, Weight Decay는 0.01로 적용하였다. 스케줄러는 초기 1 Epoch 동안 선형적으로 증가하며, 이후에는 Power 값 1.0을 기준으로 학습률이 점진적으로 감소하여 Min 값인 0.0에 도달하는 Polynomial 학습률을 사용하였다. 사용한 데이터 증대 기법으로는 Random Rotate, Random Crop, Random Flip (Horizontal, Vertical)을 사용하였다. 모델의 훈련은 AMD EPYC 7643 CPU와 48GB의 메모리를 갖는 2개의 NVIDIA A40 GPU가 탑재된 Ubuntu 22.04.2 LTS 운영체제에서 수행하였다.

3.2. SAM

SAM은 Meta에서 2023년에 공개한 의미론적 분할을 위한 Foundation 모델로, Zero-Shot 작업을 수행할 수 있는 최초의 분할 모델이다(Kirillov et al., 2023). 일반화 성능이 높다는 특징으로 SAM은 모든 컴퓨터 비전 분야에서 광범위하게 사용되는 추세이다. 본 연구에서는 위치보정이 완벽하지 않은 무인기 영상과 스마트팜맵 간의 정합이 완전하지 않은 한계를 극복하기 위하여 이미지로부터 실제 필지경계를 추출하고, 스마트팜맵과 대조하여 선택하는 알고리즘을 위하여 공개된 SAM을 활용한다.

Figure 4. Architecture of SAM.

3.3. SAM과 분할 모델을 활용한 필지 분할 및 분류 방법

본 연구에서는 SAM을 활용해 필지를 추출하고 분류 모델을 통해 판별하는 2단계의 과정을 제안한다. Phase 1은 입력된 이미지를 SAM을 활용하여 배경과 필지를 효과적으로 분리하고, 분할된 필지 중 Shape 파일에 존재하는 필지와 교차되는 SAM 출력 필지만을 추출한다. Phase 2는 선정된 필지를 기반으로 다중 분류 모델을 학습하여 무인기 영상에서 다중 작물 분류를 수행한다(Fig. 5). SAM을 활용해 배경과 필지를 온전히 분리한 후 배경 픽셀을 제외한 영역에 대해서만 분류를 수행하기 때문에 잡초와 분광 보정 오류와 같은 노이즈에 대해 강인하다. 실험에서는 이미지 인코더(Encoder)로 Vit-L을 사용하는 SAM-L 모델을 채택하였다. 또한, SAM의 사전학습 성능을 최대한 활용하기 위해 입력 원본 무인기영상의 크기를 사전학습된 해상도인 1,024 × 1,024 크기로 절삭하여 모델에 입력하였다. 분류 모델로는 Swin Transformer의 개선 버전인 Swin Transformer V2 Tiny (Liu et al., 2022)를 사용했다.

Figure 5. The proposed method for crop classification using the SAM and classification model. Phase 1: initial extraction of crop fields intersecting with the shape using SAM. Phase 2: classification and merging of extracted crop fields.

분류 모델의 입력은 SAM에서 추출된 필지 이미지를 대상으로 하였다. 필지 이미지는 짧은 폭을 기준으로 크기를 조정하는 증대 기법인 Resize Edge를 256로 수행하였고, 이후 Center Crop 기법을 적용하여 224 × 224 크기의 이미지(Fig. 6)로 변환한 뒤 학습을 진행하였다. 실험에 사용된 훈련 횟수인 Epoch은 100으로 설정하였고 Loss Function은 Cross Entropy Loss를 사용하였다. 배치 크기는 64로 설정하였으며 Optimizer는 AdamW를 사용하였다. 초기 학습률은 5e–4로 설정하였고, 베타 파라미터는 각각 0.9와 0.999로 설정되었으며 Weight Decay는 0.05로 적용하였다. 학습률 스케줄러는 초기 20 Epoch 동안 LinearLR을 통해 선형적으로 증가시킨 후, CosineAnnealingLR 스케줄러를 사용하여 점진적으로 감소시키는 방식으로 설정하였다.

Figure 6. The process of converting SAM results into inputs for the classification model: dividing the original image into a crop field, then center cropping the crop field as inputs for SAM.

4. 연구 결과 및 분석

4.1. 평가방법

본 연구에서는 제안된 방법과 기존 의미론적 분할 모델과 성능을 비교하기 위한 아래 프로토콜을 제안한다. 먼저 SAM을 활용하여 입력 이미지에서 필지를 분할한다. 분할된 필지는 분류 모델의 입력 데이터로 사용된다. 다음, 학습된 분류 모델로 개별 필지의 클래스 정보를 생성한다. 이 정보를 필지의 픽셀에 대응시켜 클래스 별 분할 영역을 만든다. 마지막으로, 클래스 별 영역을 병합하여 전체 이미지의 의미론적 분할 지도를 산출한다.

위의 프로토콜로 생성된 의미론적 분할 영역은 실제 라벨링된 데이터와 비교하여 IoU 지표를 기반으로 평가된다. 이 과정을 통해 의미론적 분할 방법이 아닌 제안된 방법의 결과를 기존 의미론적 분할 모델과 정량적으로 비교 가능하게 변환시킨다.

분류 모델의 성능을 개별 측정하고자 F1-Score를 사용하였다. F1-Score는 정밀도(Precision)와 재현율(Recall)의 조화평균을 계산한 지표로 분류 모델의 전반적인 성능을 평가하기 위해 주로 사용된다. 해당 지표로 분류 모델이 특정 클래스에 과적합하지 않고 균형 잡힌 성능을 보이는지 확인하였다(식 1).

F1=2×Precision×RecallPrecision+Recall

또한, 클래스 별 데이터 불균형 문제를 고려하고자 Micro 정확도를 추가 사용하였다. Micro 정확도는 각 클래스별로 성능을 개별적으로 계산하지 않고, 모든 클래스에서 발생한 참 긍정(True Positive), 거짓 긍정(False Positive), 거짓 부정(False Negative) 값을 합산하여 계산한다. 따라서 클래스 개수와 상관없이 모든 예측에 동일한 가중치를 부여하므로 모델의 전반적인 성능을 평가할 수 있다.

micro Accuracy= c1,,nTP c1,,nFP+ c1,,nTP

4.2. SAM 필지 추출 성능

SAM의 필지 추출 성능을 확인하기 위해 스마트팜맵에 존재하는 필지와 대조를 통하여 추출 정확도를 사용하였고, 추출된 필지가 온전하게 추출 되는지 여부는 IoU를 사용하여 평가하였다. 추가적으로 모델의 크기에 따른 성능을 확인하기 위해 SAM의 모델을 모델의 파라미터 수에 따라 SAM-B, SAM-L, SAM-H 각각에 대해 비교하였으며, 입력 사이즈에 따른 결과를 확인하기 위해 Patch Size를 3가지(2,048, 1,024, 512)로 진행하였다.

실험 결과 모델의 크기를 키울수록 일반적으로 성능이 향상된다는 점을 확인할 수 있었다(Table 2). 입력 이미지의 사이즈는 SAM의 입력 사이즈에 맞게 Patch를 구성한 1,024 × 1,024 사이즈의 이미지가 텍스처 손실이 발생하지 않기 때문에 성능이 제일 높은 것을 확인할 수 있다(Table 3). 그러나 모델의 사이즈가 커질수록 추론에 사용되는 시간이 많이 소요되기 때문에 적절한 크기의 모델을 선택하는 과정이 필요하다. 이후의 실험에서는 중간 사이즈의 모델인 SAM-L을 활용해서 실험을 진행했다.

Table 2 . Accuracy and IoU results of parcels extracted by SAM (B, L, H) compared to the ground truth.

ModelPatch sizeStrideAccuracyIoU
SAM-B1,024 × 1,0241920.850.87
SAM-L1,024 × 1,0241920.950.88
SAM-H1,024 × 1,0241920.970.88

Table 3 . Accuracy and IoU results of parcels extracted by SAM-L compared to the ground truth.

ModelPatch sizeStrideAccuracyIoU
SAM-L2,048 × 2,0483840.920.86
SAM-L1,024 × 1,0241920.950.88
SAM-L512 × 512960.950.86


4.3. 분류 모델 성능

분류 모델의 성능은 6가지 클래스(배추, 무, 벼, 콩, 고추, 기타)의 성능을 종합적으로 평가하였다. 데이터셋의 특성상 클래스 불균형 문제가 존재하기 때문에 샘플의 수를 고려하여 클래스 불균형 문제에서 정밀하게 평가하는 지표인 Micro 정확도와 F1-Score를 사용하여 평가하였다.

SAM 기반의 필지선택 모듈의 효용성을 검증하기 위하여, 필지 전처리 방법론에 따른 작물분류 모델의 정확도를 비교하였다(Tables 4, 5). 첫 번째 모델은 스마트팜맵 필지경계 원본일 이용하여 각 필지를 이미지 분할 후 데이터셋을 만들었으며, 두 번째 모델은 SAM 기반의 필지선택과정을 통해 이미지 특징에서 추출한 필지경계를 통해 이미지 분할 후 데이터셋을 생성하였다.

Table 4 . F1-Scores of the classification models with and without SAM-based parcel boundary selection.

ModelMeanCabbageRadishRiceBeanChiliOthers
SwinV2-T (without SAM)0.830.980.950.980.590.680.82
SwinV2-T (with SAM)0.870.980.960.980.690.730.89

Table 5 . Microaccuracy of the classification model.

ModelAccuracy
SwinV2-T (without SAM)0.75
SwinV2-T (with SAM)0.79


실험결과 배추, 벼와 같이 타 작목과 비교하여 분광특성이 명백히 구분되는 클래스의 경우에는 두 전처리 방법의 성능차이가 없으나 콩, 고추, 기타 작목과 같이 분광특성이 서로 유사한 경우에는 스마트팜맵 필지경계 원본으로 이미지 분할 시 성능저하를 보였다. 특히, 콩과 고추를 재배하는 필지의 경우 평균재배면적이 배추 재배필지에 비해 작아 무인기영상과 스마트팜맵 간의 정합성차이가 이미지에 주는 영향이 큰것으로 판단되어 분할된 데이터로 학습했을 때 성능저하가 더욱 큰것으로 보인다. 이를 통해 제안한 SAM 기반의 필지 선택 과정이 무인기 영상과 스마트팜맵의 정합성문제를 완화시켜주며, 이를 토대로 생성한 이미지분류 데이터셋을 학습하였을 때 비중이 적은 콩, 고추, 기타 작목에 대해 성능향상을 보일수 있음을 확인하였다.

SAM 기반의 전처리 방법론과 무관하게 데이터가 충분한 데이터가 존재하는 배추, 무, 벼 클래스의 경우 높은 F1-Score를 보이는 것을 확인할 수 있다. 반면 콩, 고추 클래스의 경우 학습에 필요한 데이터가 적다는 문제가 있어 상대적으로 다른 클래스에 비해 낮은 성능을 보였지만 일정 수준 이상의 일반화 성능을 보이는 것을 확인하였다. 추가적으로 부족한 클래스의 데이터를 확보하면 높은 성능을 달성할 수 있을 것으로 예상한다.

4.4. SAM 기반의 필지별 분류 모델 성능

Table 6는 영상 전체를 배경클래스를 포함하여 의미론적 분할을 수행한 결과와 SAM을 이용하여 필지경계를 추출한 지역에 한정하여 의미론적 분할 및 분류모델에 대한 결과를 통합하여 보이고 있다.

Table 6 . Performance comparison of IoU between semantic segmentation and SAM + classification models.

TaskModelMean (%)CabbageRadishRiceBeanChiliOthers
Full image inferenceSwin-L + CE Loss59.6187.8666.8036.5555.3449.0362.05
Swin-L + Adaptive CE Loss51.1986.0662.0924.8440.5441.3952.23
Swin-L + Focal Loss66.6588.5570.7460.1660.9154.9364.62
Inference on selected area onlySAM + Swin-L (Segmentation)63.4978.5472.3380.0343.2246.8160.03
SAM + SwinV2-T (Proposed Method)71.7676.5777.1386.7262.5859.9567.73


사용한 작물분류 데이터셋에 대해 의미론적 분할 모델의 클래스 불균형을 해소하기 위한 기존 방법의 효용성을 확인하기 위하여 동일한 조건에 대하여 학습에 사용한 손실함수인 Cross Entropy Loss를 각각 Adaptive Cross Entropy Loss와 Focal Loss로 변경하여 실험을 진행하였다. Focal Loss는 쉽게 판별할 수 없는 Hard Negative Sample에 대한 손실함수의 가중치를 증가시키는 방법이며, 데이터셋에 오라벨이 없는 경우 강력한 성능을 발휘할 수 있다. 실험결과, Focal Loss를 사용한 경우에는 Cross Entropy를 사용한 경우와 비교하여 모든 작목에 대해 성능향상을 관찰할 수 있었으며, 이는 Focal Loss 와 같이 어려운 문제에 대해 가중치를 주는 방식이 이 작물의 의미론적 분할 문제에 있어 유의미함을 관찰할 수 있었다. 그러나 여전히 적은 비중의 작목인 콩, 고추 등에서 제안한 SAM 기반의 필지선택 후 작물분류 방식에 비하여 낮은 정확도를 보이며, 이는 Focal Loss와 같이 어려운 문제에 대해 가중치를 주는 방식으로는 본 데이터셋의 클래스 불균형 문제를 해결함에 한계가 있음을 보여준다.

SAM을 이용하여 필지경계를 추출한 지역에 한정하여 각각 의미론적 분할모델과 분류모델을 학습하여 결과를 비교하였다. 이 경우, 의미론적 분할 모델은 Background 지역의 결과는 손실함수 계산에서 제외하는 방식으로 필지경계 내부에 대해서만 배경클래스를 제외하고 학습을 진행하였다. 앞서 추출한 필지경계 내에서 SAM 경계 내부에 대한 의미론적 분할 모델과 분류모델의 성능을 비교하였을 때, 의미론적 분할은 가장 다수이고 독특한 분광정보특성을 갖는 배추 작목에 대해서는 높은 성능을 내나 소수 작목인 콩, 고추, 기타 작목에 대해서는 분류 기법에 비해서 낮은 성능을 보인다. 이는 의미론적분할 결과가 필지 전체가 아닌 픽셀의 분광정보에 의존하기에 영상 경계면에서 왜곡이 발생하거나 방사보정의 문제로 비네팅 현상이 발생할 경우 동일한 필지 내에서도 서로 다른 작목으로 분할을 하는 경우가 존재하기 때문인 것으로 보인다. 특히, 이것은 분광특성이 서로 비슷한 콩, 고추, 기타작목에서 주로 발생하며 서로의 작목을 혼동하는 경향을 관찰할 수 있었다. 그러나 분류모델일 경우에는 필지 내에 분광왜곡이 있는 경우에 대해 다소 강건하여 샘플 수가 적은 작목에 대해서도 비교적 높은 IoU 성능을 보임을 관찰할 수 있었다.

영상 전체에 대한 추론과 제안한 SAM 기반의 필지선택 후 작물분류 모델을 비교하였을 때 평균적으로 10% 이상의 IoU 향상이 있었으며, 특히 벼 클래스에서 50% 이상의 성능 향상을 확인할 수 있었다. 이는 데이터셋에서 배추 클래스의 샘플 수가 다른 클래스에 비해 많아 의미론적 분할 모델에서 성능이 보장되는 반면, 소수 클래스의 경우 성능 저하가 발생한 것으로 분석된다. 하지만 제안한 방법론은 클래스 간 데이터 불균형이 존재하는 상황에서도 모든 클래스에서 일관성 있는 성능을 보이는 것을 확인할 수 있다. 이는 제안된 방법이 불균형한 클래스 분포를 가진 데이터셋에서도 우수한 성능을 유지할 수 있음을 입증한다.

또한, 불균형한 클래스 분포가 있는 데이터셋에서 성능을 향상시키는 연구는 주로 분할 방법보다는 분류 방법에서 활발히 이루어지고 있다. 제안한 단계적 필지 분할 및 분류 방법은 이러한 문제를 해결하는 데 효과적이며, 향후 성능을 더욱 개선할 수 있는 가능성이 존재한다.

Fig. 7은 의미론적 분할 모델과 SAM기반 분할 모델의 단일한 무인기영상을 전체를 추론한 결과이다. 매핑 결과의 A, B 확인 시 의미론적 분할 모델의 경우 분할된 필지의 경계면이 온전하지 못한 모습을 보이는 것을 확인할 수 있다. 하지만 SAM 모델의 경우 필지의 경계면이 배경과 온전하게 분리된 모습을 볼 수 있다. 클래스가 불균형한 데이터 셋의 경우 의미론적 분할 모델의 학습의 안정성이 떨어져 성능의 제한이 존재하지만 파운데이션 모델로 만들어진 SAM 모델의 경우 별도의 학습이 필요하지 않아 적은 클래스의 데이터셋에서도 성능의 일관성이 있다. 또한 분광보정 오류가 존재하더라도 성능에 영향을 미치지 않는다는 점도 큰 특징이다.

Figure 7. Qualitative analysis of results. Row 1: original image and ground truth label. Row 2: SAM + classification result and semantic segmentation result.

Fig. 8은 분류 모델이 이미지 내 필지의 클래스를 예측할 때, 어느 영역에 집중하는지를 Class Activation Map (CAM)으로 시각화한 결과이다(Zhou at el., 2016). 이를 통해 분류 모델이 실제로 작물 정보에 특징적인 영역, 필지별 특징점에 기반하여 작물 분류를 수행하고 있음을 보여준다.

Figure 8. Original image and CAM results of the classification model. (a) Cabbage and (b) radish.

반면, 기존 의미론적 분할 모델은 픽셀 단위로 분류를 수행하므로 주변의 모든 픽셀을 고려한다. 이로 인해 불필요한 배경 픽셀까지 분석 과정에서 전부 고려되며, 모델은 개별 필지의 특징점을 찾고 전체 필지에 적용하기까지 불필요한 비교 연산을 수행해야 한다. 그러나 제안된 모델은 SAM을 사용하여 먼저 필지의 경계를 구분하고, 분류모델은 필지 내 정보만 활용하여 작물 분류를 수행한다. 이를 통해 주변 배경 픽셀의 영향을 미리 제거함으로써 분석의 정확성을 높인다. 또한, 단일 필지 내에서도 분류 모델은 유의미한 특징을 강조하고 나머지 영역을 배제할 수 있다. 이러한 원인으로 Table 6에서 SAM으로 추출한 필지경계 내에서 의미론적 분할 및 작물분류 시 소수작목에 대해 유의미한 성능차이가 발생하는 것으로 추측된다.

5. 결론

본 연구에서는 무인기 영상을 활용한 작물 분류 시 발생하는 문제를 해결하기 위해 SAM과 의미론적 분할 모델을 단계적으로 적용하는 방법을 제안하였다. 제안한 방법은 필지와 배경 간의 영향을 효과적으로 분리하여 작물 분류 성능에 배경의 영향을 최소화 시켜 성능을 향상시키는 데 중점을 두고 있다. 본 연구에서 사용한 데이터셋은 배추, 무, 벼, 콩, 고추, 기타의 6개 클래스 작물을 포함하며, 클래스 간 데이터 불균형을 고려하여 실제 환경에서의 이미지 취득이 제한된 조건을 반영하였다. 실험 결과, 기존 의미론적 분할 모델은 클래스 비중이 큰 배추의 경우 높은 성능을 보였으나, 상대적으로 데이터가 부족한 나머지 작목에서 성능 저하가 나타났다. 반면, 제안된 방법은 클래스 분포에 관계없이 전반적으로 우수한 성능을 보였으며, 특히 필지와 배경을 분리하여 처리할 때 성능이 크게 향상됨을 확인하였다.

본 연구의 한계점으로는 다년도 데이터셋을 포함하지 못한 점과 제안한 SAM 기반 필지분할 IoU 정확도가 SAM의 필지분할 성능에 의존한다는 점이다. 본 연구에서 사용된 데이터셋은 2021년과 2022년에 촬영된 영상만을 사용하여, 추후 촬영되는 무인기 영상 데이터를 사용할 경우 모델의 추론 성능이 저하될 가능성이 있다. 또한, 무인기 영상의 방사보정은 필수적이며, 본 연구에서 사용된 Micasense-MX 외에 다양한 센서 및 방사보정 알고리즘 적용여부에 대한 제안 모델의 정확도를 검증할 실험이 충분하지 않다. 이는 데이터 확보 측면에서도 한계가 있으며, 무인기 영상을 활용한 데이터 수집의 라벨링과정이 전적으로 현장 조사를 기반으로 하기 때문에 시간과 자원이 많이 소요되어 데이터 확보에 어려움이 있다. 또한, 제안된 모델이 우수한 분류 정확도를 보이더라도 최종 재배 면적 산정을 위한 IoU 값은 SAM 기반 분할 정확도에 크게 의존한다. 만약 SAM 분할 과정에서 필지가 누락되거나 정확한 분할이 이루어지지 않는다면, 모델의 성능과 실용성 모두 저하될 수 있다.

이러한 한계들을 보완하기 위해 향후 연구에서는 다년도 데이터를 포함한 대규모 데이터셋을 확보하고, 다양한 센서에 적합한 표준화된 방사보정 알고리즘의 활용이 필요하다. 또한, SAM의 분할 실패 문제를 보완하기 위한 전처리 과정의 개선과 더불어 SAM이외의 다른 분할 알고리즘과의 융합을 통해 분할 정확도를 향상시키는 방안도 고려해야 할 것이다.

사사

본 논문은 농촌진흥청 연구사업(과제번호: PJ017042)의 지원에 의해 이루어진 것임.

Conflict of Interest

No potential conflict of interest relevant to this article was reported.

Fig 1.

Figure 1.Registration error between smart farm map and UAV imagery: comparison of smart farm map boundaries (yellow) and segment anything model (SAM)-based parcel boundaries on the imagery.
Korean Journal of Remote Sensing 2024; 40: 495-506https://doi.org/10.7780/kjrs.2024.40.5.1.7

Fig 2.

Figure 2.A sample from the semantic segmentation dataset: (a) image of a crop field and (b) label of the crop field.
Korean Journal of Remote Sensing 2024; 40: 495-506https://doi.org/10.7780/kjrs.2024.40.5.1.7

Fig 3.

Figure 3.Sample images from the classification dataset (3 samples per category).
Korean Journal of Remote Sensing 2024; 40: 495-506https://doi.org/10.7780/kjrs.2024.40.5.1.7

Fig 4.

Figure 4.Architecture of SAM.
Korean Journal of Remote Sensing 2024; 40: 495-506https://doi.org/10.7780/kjrs.2024.40.5.1.7

Fig 5.

Figure 5.The proposed method for crop classification using the SAM and classification model. Phase 1: initial extraction of crop fields intersecting with the shape using SAM. Phase 2: classification and merging of extracted crop fields.
Korean Journal of Remote Sensing 2024; 40: 495-506https://doi.org/10.7780/kjrs.2024.40.5.1.7

Fig 6.

Figure 6.The process of converting SAM results into inputs for the classification model: dividing the original image into a crop field, then center cropping the crop field as inputs for SAM.
Korean Journal of Remote Sensing 2024; 40: 495-506https://doi.org/10.7780/kjrs.2024.40.5.1.7

Fig 7.

Figure 7.Qualitative analysis of results. Row 1: original image and ground truth label. Row 2: SAM + classification result and semantic segmentation result.
Korean Journal of Remote Sensing 2024; 40: 495-506https://doi.org/10.7780/kjrs.2024.40.5.1.7

Fig 8.

Figure 8.Original image and CAM results of the classification model. (a) Cabbage and (b) radish.
Korean Journal of Remote Sensing 2024; 40: 495-506https://doi.org/10.7780/kjrs.2024.40.5.1.7

Table 1 . Class distribution of data used in this study.

ClassSemantic segmentation (%)Classification (%)
With backgroundWithout background
Background69.7--
Cabbage24.581.153.5
Radish0.92.922.9
Rice1.65.27.1
Bean0.20.62.1
Chili0.10.40.9
Others2.99.711.4

Table 2 . Accuracy and IoU results of parcels extracted by SAM (B, L, H) compared to the ground truth.

ModelPatch sizeStrideAccuracyIoU
SAM-B1,024 × 1,0241920.850.87
SAM-L1,024 × 1,0241920.950.88
SAM-H1,024 × 1,0241920.970.88

Table 3 . Accuracy and IoU results of parcels extracted by SAM-L compared to the ground truth.

ModelPatch sizeStrideAccuracyIoU
SAM-L2,048 × 2,0483840.920.86
SAM-L1,024 × 1,0241920.950.88
SAM-L512 × 512960.950.86

Table 4 . F1-Scores of the classification models with and without SAM-based parcel boundary selection.

ModelMeanCabbageRadishRiceBeanChiliOthers
SwinV2-T (without SAM)0.830.980.950.980.590.680.82
SwinV2-T (with SAM)0.870.980.960.980.690.730.89

Table 5 . Microaccuracy of the classification model.

ModelAccuracy
SwinV2-T (without SAM)0.75
SwinV2-T (with SAM)0.79

Table 6 . Performance comparison of IoU between semantic segmentation and SAM + classification models.

TaskModelMean (%)CabbageRadishRiceBeanChiliOthers
Full image inferenceSwin-L + CE Loss59.6187.8666.8036.5555.3449.0362.05
Swin-L + Adaptive CE Loss51.1986.0662.0924.8440.5441.3952.23
Swin-L + Focal Loss66.6588.5570.7460.1660.9154.9364.62
Inference on selected area onlySAM + Swin-L (Segmentation)63.4978.5472.3380.0343.2246.8160.03
SAM + SwinV2-T (Proposed Method)71.7676.5777.1386.7262.5859.9567.73

References

  1. Aung, H. L., Uzkent, B., Burke, M., Lobell, D., and Ermon, S., 2020. Farm parcel delineation using spatio-temporal convolutional networks. In Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Seattle, WA, USA, June 14-19, pp. 340-349. https://doi.org/10.1109/CVPRW50498.2020.00046
  2. Berman, M., Triki, A. R., and Blaschko, M. B., 2018. The Lovasz-softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks. In Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake City, UT, USA, June 18-21, pp. 4413-4421. https://doi.org/10.1109/CVPR.2018.00464
  3. Bouguettaya, A., Zarzour, H., Kechida, A., and Taberkit, A. M., 2022. Deep learning techniques to classify agricultural crops through UAV imagery: A review. Neural Computing and Applications, 34(12), 9511-9536. https://doi.org/10.1007/s00521-022-07104-9
  4. Gallo, I., Ranghetti, L., Landro, N., La Grassa, R., and Boschetti, M., 2023. In-season and dynamic crop mapping using 3D convolution neural networks and Sentinel-2 time series. ISPRS Journal of Photogrammetry and Remote Sensing, 195, 335-352. https://doi.org/10.1016/j.isprsjprs.2022.12.005
  5. Garnot, V., Landrieu, L., Giordano, S., and Chehata, N., 2020. Satellite image time series classification with pixel-set encoders and temporal self-attention. In Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, June 13-19, pp. 12322-12331. https://doi.org/10.1109/CVPR42600.2020.01234
  6. Ji, S., Zhang, C., Xu, A., Shi, Y., and Duan, Y., 2018. 3D convolutional neural networks for crop classification with multi-temporal remote sensing images. Remote Sensing, 10(1), 75. https://doi.org/10.3390/rs10010075
  7. Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., and Gustafson, L., et al, 2023. Segment anything. In Proceedings of the 2023 IEEE/CVF International Conference on Computer Vision (ICCV), Paris, France, Oct. 1-6, pp. 4015-4026. https://doi.org/10.1109/ICCV51070.2023.00371
  8. Lark, T. J., Schelly, I. H., and Gibbs, H. K., 2021. Accuracy, bias, and improvements in mapping crops and cropland across the United States using the USDA cropland data layer. Remote Sensing, 13(5), 968-984. https://doi.org/10.3390/rs13050968
  9. Liu, S., Niles-Weed, J., Razavian, N., and Fernandez-Granda, C., 2020. Early-learning regularization prevents memorization of noisy labels. arXiv preprint arXiv:2007.00151. https://doi.org/10.48550/arXiv.2007.00151
  10. Liu, Z., Hu, H., Lin, Y., Yao, Z., Xie, Z., and Wei, Y., et al, 2022. Swin transformer V2: Scaling up capacity and resolution. In Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, LA, USA, June 18-24, pp. 11999-12009. https://doi.org/10.1109/CVPR52688.2022.01170
  11. Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., and Zhang, Z., et al, 2021. Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada, Oct. 10-17, pp. 10012-10022. https://doi.org/10.1109/ICCV48922.2021.00986
  12. Pandey, A., and Jain, K., 2022. An intelligent system for crop identification and classification from UAV images using conjugated dense convolutional neural network. Computers and Electronics in Agriculture, 192, 106543. https://doi.org/10.1016/j.compag.2021.106543
  13. Park, J. K., and Park, J. H., 2015. Crops classification using imagery of unmanned aerial vehicle (UAV). Journal of The Korean Society of Agricultural Engineers, 57(6), 91-97. https://doi.org/10.5389/KSAE.2015.57.6.091
  14. Rao, P., Zhou, W., Bhattarai, N., Srivastava, A. K., Singh, B., Poonia, S., Lobell, D. B., and Jain, M., 2021. Using Sentinel-1, Sentinel-2, and planet imagery to map crop type of smallholder farms. Remote Sensing, 13(10), 1870. https://doi.org/10.3390/rs13101870
  15. Rustowicz, R. M., Cheong, R., Wang, L., Ermon, S., Burke, M., and Lobell, D., 2019. Semantic segmentation of crop type in Africa: A novel dataset and analysis of deep learning methods. In Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Long Beach, CA, USA, June 15-20, pp. 75-82.
  16. Tseng, G., Kerner, H., Nakalembe, C., and Becker-Reshef, I., 2021. Learning to predict crop type from heterogeneous sparse labels using meta-learning. In Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Nashville, TN, USA, June 19-25, pp. 1111-1120. https://doi.org/10.1109/CVPRW53098.2021.00122
  17. Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J. M., and Luo, P., 2021. SegFormer: Simple and efficient design for semantic segmentation with transformers. In Proceedings of the 34th Advances in Neural Information Processing Systems (NeurIPS), Virtual, Dec. 6-14, pp. 12077-12090.
  18. Yoo, H. Y., Lee, K. D., Na, S. I., Park, C. W., and Park, N. W., 2017. Field crop classification using multi-temporal high-resolution satellite imagery: A case study on garlic/onion field. Korean Journal of Remote Sensing, 33(5-2), 621-630. https://doi.org/10.7780/KJRS.2017.33.5.2.2
  19. Zhong, Z., Cui, J., Yang, Y., Wu, X., Qi, X., Zhang, X., and Jia, J., 2023. Understanding imbalanced semantic segmentation through neural collapse. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 17-24, Vancouver, BC, Canada, pp. 19550-19560.
  20. Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., and Torralba, A., 2016. Learning deep features for discriminative localization. In Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, June 27-30, pp. 2921-2929. https://doi.org/10.1109/CVPR.2016.319
KSRS
October 2024 Vol. 40, No.5, pp. 419-879

Share

  • line

Korean Journal of Remote Sensing