Korean J. Remote Sens. 2024; 40(6): 1449-1460
Published online: December 31, 2024
https://doi.org/10.7780/kjrs.2024.40.6.3.6
© Korean Society of Remote Sensing
김태헌1, 서두천2, 김예지3, 김나영4, 이진민4, 이창희5, 한유경6*
1한국항공우주연구원 지상국기술연구부 선임연구원
2한국항공우주연구원 지상국기술연구부 책임연구원
3한국항공우주연구원 위성활용부 연구원
4서울과학기술대학교 건설시스템공학과 석사과정생
5서울과학기술대학교 건설시스템공학과 박사과정생
6서울과학기술대학교 건설시스템공학과 부교수
Correspondence to : Youkyung Han
E-mail: han602@seoultech.ac.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
In this study, we propose an automatic training dataset generation method to build a self-supervised matching network, using an End-to-end approach, to extract matching points between very high-resolution (VHR) satellite images. A homography matrix that transforms the scale, rotation, and translation of a single VHR remote-sensing image is applied to generate reference and sensed image patches. After adjusting the contrast and brightness of the sensed image patch, Gaussian and speckle noise are added, and shading and motion blur effects are applied to give it different characteristics from the reference image patch. Subsequently, multiple feature point extractors are combined with homographic adaptation to extract robustly detected feature points by different detectors under various geometric conditions from each image patch. The extracted feature points are optimized using the non-maximum suppression (NMS) technique. Feature point pairs with distance errors within 1 pixel between image patches are identified as matching points using the inverse homography matrix. The coordinates of these matching points, along with the homography matrix, are then employed as pseudo-labels. Training data was generated only when the automated method, applied to the VHR remote sensing database collected from various sources, extracted more than 20 matching points. As a result, training and validation datasets were generated, comprising a total of 341,820 and 44,389 image patches, respectively. The End-to-end matching network trained with the proposed dataset extracted matching points more accurately compared to other matching methods and deep learning networks. Therefore, the proposed method can automatically generate high-quality pseudo-labels that reflect the characteristics of VHR satellite images, thereby improving the training efficiency of deep learning networks.
Keywords Automatic training dataset generation method, Self-supervised matching network, End-to-end, Matching point, Very high-resolution satellite images
고해상도(very high-resolution, VHR) 위성영상은 높은 공간해상도를 바탕으로 신뢰도 높은 정보를 사용자에게 제공할 수 있어 국토관리, 국방, 재난 및 재해 모니터링, 그리고 기후변화 등 다양한 분야의 핵심 데이터로 활용되고 있다. 하지만 일반적으로 동일지역에서 촬영된 고해상도 위성영상은 탑재체 특성 차이, 지구 자전 및 공전, 그리고 촬영 시기에 따른 지구 표면의 복합적인 변화 특성 등과 같이 다양한 요소로 인해 영상 간 상대적인 기하오차(geometricmisalignment)가 발생한다(Kim and Han, 2021; Han et al., 2022). 이러한 기하오차는 다시기 위성영상 산출물 품질을 저해하는 주된 요인으로 작용하기 때문에 이를 최소화하는 전처리 작업이 필수적으로 수행되어야 한다.
상대기하보정(image registration)은 고해상도 위성영상 간 동일 위치에서 정합점(matching point)을 추출한 후 이를 기반으로 구성된 변환모델을 이용하여 기하오차를 보정하는 전처리 작업이다. 일반적으로 상대기하보정은 정합점을 추출하는 방법에 따라 특징기반 정합기법(feature-based matching method)과 영역기반 정합기법(area-based matching method)으로 구분된다. 이러한 전통적인 정합기법은 영상 정보만을 이용하여 정합점을 추출할 수 있어 범용성이 높다. 하지만 특징기반 정합기법은 서술벡터 특성에 의존적이고, 영역기반 정합기법은 초기 기하왜곡 차이에 취약하여 고해상도 위성영상 간 복합적은 특성 차이에 강인한 정합점을 추출하기에는 한계점이 존재한다. 전통적인 정합기법의 한계점을 개선하기 위해 딥러닝 기술을 이용하여 정합점을 추출하는 딥러닝 기반 정합기법(deep learningbasedmatchingmethod)의 중요성이 대두되고 있다.
딥러닝 기반 정합기법은 입력 데이터의 다양한 특성을 설명하는 고차원 특징정보를 활용하여 영상 간 동일 위치에서 정합점을 추출하는 방법이다(Yang et al., 2018; Dong et al., 2019; Kim et al., 2023b). 다양한 딥러닝 기반 정합기법 중 End-to-end 매칭 방법은 특징점 추출, 서술벡터 생성 그리고 특징점 매칭과정을 통합하여 다수의 정합점을 추출하는 방법이다(Sun et al., 2021; Liang et al., 2023). 이러한 End-to-end 매칭 방법은 특징점 및 서술벡터와 같은 특정 데이터에 의존적인 문제를 해결할 수 있고, 하나의 네트워크만을 이용하기 때문에 다른 네트워크 및 매칭 알고리즘과의 연계과정 없이 독립적으로 활용할 수 있다. 이에, detector-free local feature matching with transformers (LoFTR) (Sun et al., 2021), dual-branch cross fusion Network (DF-Net) (Li et al., 2023) 그리고 radiation-variation Insensitive, zero-shot learning-based registration (RIZER) (Li et al., 2024)와 같은 다양한 방식의 End-to-end 매칭 네트워크가 제안되었다. 하지만 기 개발된 네트워크는 일반 영상, 중저해상도 위성영상, synthetic aperture radar (SAR) 영상 그리고 이종센서 위성영상에 최적화되어 있어 다시기(multi-temporal) 혹은 다중센서(multi-sensor) 고해상도 위성영상 상대기하보정에 직접적으로 적용하기에는 불확실성이 존재한다.
고해상도 위성영상의 복합적인 특성을 반영하여 End-to-end 방식으로 정합점을 추출하는 딥러닝 네트워크를 구축하기 위해서는 대용량 훈련자료가 요구된다. 훈련자료에는 정확한 위치에 존재하는 정합점의 전반적인 특성을 나타내는 라벨(label) 데이터가 포함되어야 한다. 하지만, 일반적으로 훈련자료 생성 시 육안판독을 통해 영상 내 라벨을 선정하기 때문에 많은 인력 및 시간 비용이 소모된다. 또한, 높은 정확도로 상대기하보정을 수행하기 위해서는 다수의 정합점이 확보되어야 하지만, 이를 위해 정합점 후보군 위치를 모두 라벨로 판독하는 것은 현실적으로 불가능하다. 이에 라벨이 없는 데이터로부터 pseudo-label을 생성하여 네트워크를 구축하는 자기지도 학습(self-supervised learning)의 중요성이 확대되고 있다.
대표적인 자기지도학습 방식의 딥러닝 정합기법은 다른 알고리즘을 이용하여 추출된 정합점 혹은 특징점 위치를 pseudo-label로 활용하여 딥러닝 네트워크를 학습하는 방법이다(Li et al., 2022). 이러한 자기지도학습 방법은 자동으로 대용량 훈련자료 구축이 가능하고, 다양한 종류의 데이터에서 pseudo-label을 효율적으로 생성할 수 있어 훈련자료의 다양성을 효율적으로 확보할 수 있다. 자기지도학습 방식으로 정합점 추출 네트워크를 학습시키기 위해 사전학습된 네트워크를 이용하여 훈련자료를 구축하는 방법(DeTone et al., 2018), 이종센서 영상에서 pseudo-label을 자동으로 생성하는 방법(Zhao et al., 2022), SAR 영상에서 기하학적 왜곡에 강인한 pseudo-label을 추출하는 방법(Zou et al., 2022), base detector를 고도화하여 pseudolabel의 품질을 개선하는 방법(Kim et al., 2023a)과 같이 다양한 방법론이 제안되었다. 하지만 기존 방법들은 모두 특정 알고리즘에서만 생성된 pseudo-label만을 이용하기 때문에 네트워크의 일반화 성능이 저하되는 문제점이 존재한다. 이처럼 하나의 알고리즘에서만 추출된 특징점 혹은 정합점만을 pseudo-label로 이용하게 되면 네트워크의 성능이 특정 알고리즘에 편향되어 변별력이 저하된다. 따라서 다시기 혹은 다중센서 고해상도 위성영상의 도메인 특성을 반영하면서 다양한 기하 및 방사 왜곡에 강인한 정합점을 추출하기 위해서는 고품질의 pseudo-label을 자동으로 생성하여 훈련자료를 구축하는 방법이 필요하다.
본 연구에서는 고해상도 위성영상 간 End-to-end 방식으로 정합점을 추출하는 자기지도학습 네트워크를 구축하기 위해 고품질의 pseudo-label을 생성하여 대용량 훈련자료를 자동으로 생성하는 방법을 제안한다. 다양한 경로에서 취득된 고해상도 원격탐사 영상을 기반으로 기하 및 분광특성이 상이한 영상 패치 쌍을 생성한다. 서로 다른 4개의 특징점 검출기(feature extractor)와 homographic adaptation을 이용하여 기하왜곡에 강인한 특징점을 기반으로 정합점을 추출한다. 정합점의 좌표와 영상 패치 쌍의 기하학적 관계를 나타내는 homography matirx를 pseudo-label로 할당하여 훈련자료를 자동으로 구축한다. 본 연구에서 생성된 훈련자료로 End-to-end 매칭 네트워크를 학습하고 다른 정합기법과의 비교분석을 통해 유효성을 검증한다.
자기지도학습 딥러닝 네트워크를 구축하기 위해서는 대용량 훈련자료가 필요하다. 이에 본 연구에서는 Fig. 1과 같이 pseudo-label을 자동으로 생성하여 대용량 훈련자료를 구축하는 방법론을 제안한다. 위성, 항공기 및 무인항공기와 같이 다양한 경로에서 취득된 고해상도 원격탐사 영상을 수집한다. Homography warping module, brightness adjustmentmodule 그리고 various noise generationmodule을 순차적으로 이용하여 기하 및 분광특성이 상이한 기준 영상 패치(reference image patch)와 입력 영상 패치(sensed image patch)를 생성한다. 각 영상 패치에 대해 homographic adaptation을 수행하면서 다양한 특징점 검출기(feature point extractor)를 병렬적으로 적용하여 특징점을 추출한다. 이어서 기준 및 입력 영상 패치 간 동일 위치에 존재하는 특징점을 정합점으로 추출하고, 정합점의 좌표와 homography matrix를 pseudo-label로 선정하여 자동으로 훈련자료를 구축한다.
기하 특성이 서로 상이한 기준 및 입력 영상 패치를 생성하기 위해 homography warping module을 이용한다. Homography warping module은 기하 특성을 변환하는 homographymatrix를 이용하여 다양한 경로에서 취득된 고해상도 원격탐사 영상을 기준 및 입력 영상 패치로 생성한다. 기준 영상 패치는 고해상도 원격탐사 영상을 일정 크기로 분할한 후 2% linear strectch를 수행하여 생성된다. Homography matrix는 식(1)과 같이 3 × 3 형태의 9개의 요소를 갖춘 형태로 정의되며, 식(2)와 같이 활용하여 기준 영상 패치의 스케일, 회전, 변위 그리고 전단(shear) 정보를 변환하는 방식으로 입력 영상 패치를 생성한다. 이때, 기준 영상 패치마다 homographymatrix의 계수가 변경되어 생성된 입력 영상 패치 간 기하특성의 중복성을 최소화하면서 다양성을 확보한다.
위 수식에서 H는 무작위 homographymatrix, h00, …, h22는 homography matrix의 계수, i는 영상 패치 개수, RI와 SI는 기준 및 입력 영상 패치를 의미한다.
입력 영상 패치는 homography warping module을 통해 생성되었기 때문에 기준 입력 영상 패치와 상이한 기하특성을 가지고 있다. 하지만 일반적으로 고해상도 위성영상은 촬영시기에 따라 기하 및 분광특성이 모두 상이하므로 복합적인 특성을 고려해야 한다. 이에 본 연구에서는 brightness adjustment module을 이용하여 입력 영상 패치의 밝기(brightness)와 대비(contrast)를 조정한다. 입력 영상 패치의 밝기는 중복성을 방지하기 위해 일정 범위 내에서 무작위로 도출된 조정값을 통해 변환된다. 대비정보는 식(3)과 같이 입력 영상 패치의 평균 밝기값과 대비조정 계수를 이용하여 조정된다. 이때, 대비조정 계수는 다양성 확보를 위해 [0.2, 0.3] 범위 내에서 무작위로 도출된 값을 이용한다.
위 수식에서 SI′는 대비가 조정된 입력 영상 패치, μ는 입력 영상 패치의 평균 밝기값, 그리고 α는 대비조정 계수를 나타낸다.
다중센서 혹은 다시기 고해상도 위성영상은 촬영 시기 차이로 인해 변화지역이 존재하거나 그림자, 지형차폐, 구름 등과 같은 노이즈 데이터가 식별된다. 이러한 노이즈 데이터를 훈련자료에 반영하기 위해 본 연구에서는 various noise generation module을 이용하여 입력 영상 패치 내 다양한 노이즈를 생성한다. 이를 위해 가우시안(Gaussian) 및 스펙클(speckle) 노이즈를 생성하고 셰이딩(shading)을 통해 입력 영상 패치 내 특정 영역의 조도를 변환한다. 또한, 모션 블러(motion blur) 효과를 추가함으로써 객체 선명도를 낮춰 기준 영상 패치와 상이한 특성을 갖게 한다. 가우시안 노이즈의 스케일 파라미터는 [0, 10], 스펙클 노이즈의 확률 분포는 [0, 0.0035] 범위 내 무작위 난수로 도출된 값이다. 쉐이딩 효과의 커널 사이즈는 [100, 150] 범위의 무작위 정수 값, 투명도(transparency)는 [–0.5, 0.5] 범위의 무작위 난수값 그리고 타원(ellipses)의 개수는 20개로 설정된다. 마지막으로 모션 블러 효과의 커널 크기는 [0, 4] 범위 내 무작위 정수값이다.
본 연구에서는 서로 다른 특성을 갖고 있는 4개의 특징점 검출기가 공통으로 탐지하는 특징점을 기반으로 선정된 정합점을 pseudolabel로 이용하여 라벨 데이터의 품질 및 신뢰성을 확보하고자 한다. 이를 위해 synthetic shapes dataset으로 학습된MagicPoint (DeTone et al., 2017), MSCOCO 2014 dataset으로 학습된 SuperPoint (DeTone et al., 2018), ImageNet dataset으로 학습된 KeyNet (Barroso-Laguna et al., 2022) 그리고 difference of Gaussian (DoG) 기법에 homographic adaptation 기법을 병렬적으로 적용한다.
기준 및 입력 영상 패치에 서로 다른 특성을 지닌 특징점 검출기를 병렬적으로 적용한다. 이때, 다양한 기하학적 특성을 반영하기 위해 homographic adaptation 기법을 특징점 검출기과 함께 활용하여 특징점을 추출한다. 식(4)와 같이 homographymatrix를 통해 기하특성이 변환된 영상 패치와 동일한 크기의 특징점 확률맵을 추정한 후 이를 원본 좌표로 복원시킨다.
위 수식에서 Hp는 특징점 확률맵, H는 homographic matrix, fθ는 특징점 검출기, I는 영상 패치 그리고H–1는 inverse homographicmatrix를 의미한다.
기존의 homographic adaptation은 위의 과정을 반복적으로 수행하여 추출된 특징점을 모두 pseudo-label로 이용하는 방식으로 기하학적 특성을 반영하면서 데이터 불균등을 방지한다. 하지만 고해상도 위성영상 상대기하보정 정확도를 개선하기 위해서는 다수의 정합점을 이용하기 보다 높은 위치정확도를 갖는 고품질의 정합점을 균등하게 추출하는 것이 중요하다(Kim et al., 2023a; 2023b). 이에 본 연구에서는 homographic adaptation을 반복 수행하면서 평균적으로 동일 위치에서 식별되는 특징점 위치를 추정하기 위해 식(5)와 같은 연산 과정을 수행하였다. 이러한 homopraphic adaptation은 특징점 검출기마다 반복적으로 30번씩 수행되므로, 총 120가지의 다양한 기하특성을 고려할 수 있다
위 수식에서
MagicPoint, SuperPoint, KeyNet 그리고 DoG 기법에 homographic adaptation을 병렬적으로 적용하여 기준 및 입력 패치에서 특징점 확률맵을 생성한다. 특징점 검출기의 작동방식 및 homography matrix의 계수 변화 특성에 따라 각 영상 패치에서 생성된 4개의 특징점 확률맵은 서로 다른 특성을 나타낸다. 다양한 기하 조건에서 강력하게 식별되는 특징점만을 이용하기 위해 본 연구에서는 서로 다른 특성을 지닌 특징점 검출기가 다양한 기하왜곡 조건에서 공통으로 탐지하는 특징점만을 추출한다. 이를 위해 4개의 확률맵을 식(6)과 같이 하나로 병합한 후 식(7)과 같이 정규화한다. 그 후, Np에 임계값 0.7을 적용하여 특징점을 추출한다.
위 수식에서 Mp는 병합된 특징점 확률맵, N은 특징점 확률맵 개수, fpi는 다양한 특징점 검출기에서 생성된 특징점 확률맵 그리고 Np는 정규화된 특징점 확률맵을 나타낸다.
추출된 특징점은 다양한 기하 조건에서 서로 다른 4개의 검출기가 공통으로 탐지한 데이터이지만, 특정 객체 및 피복에 편향될 수 있다. 이는 End-to-end 정합점 추출 네트워크 학습 시 과적합(overfitting)을 유발할 수 있어 pseudo-label의 신뢰성 및 품질을 저해한다. 이에 본 연구에서는 non-maximum suppression (NMS) 기법을 이용하여 추출된 특징점의 분포를 최적화하는 과정을 수행한다. NMS 기법은 객체탐지 분야에서 관심 객체에 대해 탐지된 여러 개의 bounding box 간 연산과정을 통해 최적의 bounding box를 확보하는 방법이다. 본 연구에서는 NMS 기법을 특징점 분포 최적화 과정에 적합하게 변형하여 이용한다. 먼저, Fig. 2와 같이 추출된 특징점을 중심으로 9 × 9 pixels 크기의 bounding box를 생성한다. 서로 중첩된 bounding box의 intersection over union (IoU)이 0.3 이상일 경우 확률값이 가장 높은 bounding box에 해당하는 특징점만을 선정하고 나머지는 제거한다. 여기서, 확률값은 식(6)과 (7)의 연산 과정을 통해 산출된 Np에서 특징점의 위치와 대응되는 데이터이다.
기준 및 입력 영상 패치에서 최적화 작업까지 수행된 특징점을 기반으로 정합점을 추출하기 위해 기하 관계를 설명하는 homography matrix를 이용한다. 입력 영상 패치의 특징점 좌표를 식(8)과 같이 기준 영상 패치 좌표로 변환한 후 식(9)와 같이 정의된 특징점 간 유클리드 거리 기반의 위치 오차를 추정한다. 특징점 간 위치 오차가 1 pixel 이하인 경우에는 정합점으로 선정하고, 정합점 좌표정보와 기하 관계를 나타내는 homography matrix를 pseudo-label로 할당하여 훈련자료를 자동으로 구축한다.
위 수식에서 s는 입력 영상 특징점, s′ = (s′x, s′y)와 r = (rx, ry)는 변환된 입력 영상 특징점 및 기준 영상 특징점을 의미한다. d(r, s′)는 기준 및 변환된 입력 영상 특징점 간 위치 오차를 나타낸다.
우수한 성능의 딥러닝 네트워크를 구축하기 위해서는 일반적으로 다양한 특성을 가진 대용량 훈련자료가 요구된다. 이를 위해 본 연구에서는 위성, 무인항공기, 항공기와 같이 다양한 경로에서 취득된 고해상도 광학 영상을 수집하였다. 인공지능 학습용 데이터 구축 및 사업의 일환으로 AI hub에서 제공하는 토지 피복 분류 목적으로 항공정사영상과 라벨 데이터를 제공한다. End-to-end 매칭 네트워크 학습자료 생성을 위해 수도권역, 강원 및 충청권역, 경상권역, 전라권역 그리고 제주도 지역의 항공정사영상을 수집하였으며, 해당 데이터의 세부정보는 Table 1과 같다.
Table 1 Specification of aerial orthophotos acquired from AI hub
Area | Number of image patch | GSD (Unit: pixel) | Image patch size (Unit: pixel) |
---|---|---|---|
Seoul Metropolitan | 9,299 | 0.51 | 512 × 512 |
Ganwon and Chungcheong | 83,881 | ||
Gyeongsang | 87,679 | 0.25 | |
Jeolla | 23,421 | ||
Jeju | 19,626 |
GSD: Ground Sample Distance.
훈련자료의 다양성을 확보하여 네트워크의 일반화 성능을 강화하기 위해 변화탐지 목적으로 제작된 고해상도 원격탐사 영상 기반 오픈소스 데이터를 수집하였다. SECOND 데이터셋은 무인항공기, 항공기, 그리고 위성을 이용하여 중국의 주요 도시를 촬영한 고해상도 광학영상으로 구성되어 있다(Yang et al., 2021). CLCD 데이터셋은 Gaofen-2 위성을 이용하여 중국 광동성의 농경지를 촬영한 영상이고(Liu et al., 2022), LEVIR-CD 데이터셋은 미국 텍사스 주의 다양한 지역에서 Google Earth Engine을 통해 수집된 고해상도 영상으로 구성된다(Chen and Shi, 2020). S2 Looking 데이터셋은 side-looking 촬영방식으로 취득된 고해상도 위성영상이며(Shen et al., 2021), HRCD 데이터셋은 프랑스 렌과 캉 지역에 대해 항공기를 이용하여 수집된 고해상도 영상이다(Daudt et al., 2019). 변화탐지 목적의 오픈소스 데이터셋에 관한 세부정보는 Table 2와 같다.
Table 2 Specification of aerial orthophotos acquired from AI hub
Dataset | Number of image patch | GSD (Unit: pixel) | Image patch size (Unit: pixel) |
---|---|---|---|
SECOND | 5,936 | 0.5 | 512 × 512 |
CLCD | 1,200 | 0.5–2 | 512 × 512 |
LEVIR-CD | 1,274 | 0.5 | 1,024 × 1,024 |
S2 Looking | 10,000 | 0.5–0.8 | 1,024 × 1,024 |
HRSCD | 380 | 0.5 | 10,000 × 10,000 |
다양한 종류의 고해상도 위성영상 도메인 특성을 딥러닝 네트워크에 학습시키기 위해 KOMPSAT-3·3A, WorldView-3, QuickBird 그리고 PlanetScope에서 취득된 고해상도 영상을 수집하였다. 본 연구에서는 국내외 주요 도심지를 대상으로 취득된 KOMPSAT-3·3A 전정색(panchromatic) 영상, 광주, 부산 그리고 서울 지역에서 취득된 WorldView-3 전정색 영상, 대전 지역을 촬영한 QuickBird 전정색 영상을 이용하였다. 미국과 대한민국 농경지 및 산림지역에서 취득된 PlanetScope의 다중분광 영상을 전정색 영상으로 변환하여 수집하였다. 대용량 훈련자료 구축에 이용된 다양한 종류의 고해상도 위성영상에 관한 세부 정보는 Table 3에 정리되어 있다.
Table 3 Specification of VHR satellite imagery
Satellite | GSD (Unit: m) | Radiometric resolution | Processing level |
---|---|---|---|
KOMPSAT-3 | 0.7 | 14 bit | Level 1R·1G |
KOMPSAT-3A | 0.55 | 14 bit | Level 1R·1G |
WorldView-3 | 0.31 | 11 bit | Level 2A |
QuickBird | 0.61 | 11 bit | Level 2A |
PlanetScope | 3 | 12 bit | Level 3A |
다양한 경로에서 수집된 고해상도 원격탐사 영상의 규격을 통일시키기 위한 작업을 수행하였다. AI hub에서 제공되는 항공정사영상은 512 × 512 pixels 크기의 광학 영상을 흑백 영상으로 변환하였다. 영상 패치의 크기가 서로 상이한 변화탐지 오픈소스 데이터셋 영상은 모두 512 × 512 pixels 크기와 흑백 영상으로 재구성하였다. 또한, 다양한 고해상도 위성영상을 512 × 512 pixels 크기의 영상 패치로 분할하였다. 위의 과정을 통해 생성된 영상 패치의 히스토그램을 2% linear stretch를 통해 조정한 후 데이터 타입을 모두 Uint 8 형식으로 통일하여 데이터베이스를 구축하였다.
제안기법을 통해 생성된 기준 및 입력 영상 패치는 Fig. 3과 같다. 기준 영상 패치는 히스토그램이 균등하게 조정된 흑백 영상이며, 데이터베이스 내 단일 영상 패치와 동일한 기하 및 분광특성을 가지고 있다. 입력 영상 패치는 기준 영상 패치에 homographymatrix를 적용하여 기하특성이 변화되었다. 또한, 입력 영상 패치의 밝기값 및 대비가 조정되었으며, 가우시안 및 스펙클 노이즈와 셰이딩 효과가 추가 되었다. 이처럼 입력 영상 패치는 기준 영상 패치에서 생성되었지만 기하 및 분광특성을 변화시켜 서로 상이한 특성을 나타내고 있는 것을 확인할 수 있다.
제안 기법을 이용하여 기준 및 입력 영상 패치 간 추출된 정합점은 Fig. 4와 같으며, 왼쪽 영상이 기준 영상 패치이고 오른쪽 영상이 입력 영상 패치이다. 두 영상 패치 간 스케일에 강인한 특성을 보이는 피복 및 도로 경계면, 건물 모서리 부분에서 다수의 정합점이 추출되었다. 추출된 정합점은 4개의 서로 다른 검출기가 다양한 기하 조건에서 공통적으로 탐지한 특징점을 기반으로 추출되었기 때문에 기하 왜곡에 강인하다고 볼 수 있다. 또한, 제안기법에서 도출된 정합점은 기준 및 입력 영상 패치 간 상이한 방사 특성 및 다양한 노이즈의 영향이 고려되었으며, 영상 좌표상 위치 정보를 기반으로 매칭되었기 때문에 위치 신뢰도가 높다. 이를 통해, 본 연구에서 제안한 방법을 통해 추출된 정합점은 pseudo-label로 활용하기에 적합하다고 판단된다. 따라서, 제안 기법을 통해 추출된 기준 및 입력 영상 패치의 정합점 좌표와 영상 패치 간 기하학적 관계를 나타내는 homography matrix를 pseudo-label로 선정하였다.
본 연구에서는 다양한 경로에서 취득된 고해상도 영상 데이터베이스에 제안기법을 적용하여 추출된 정합점의 개수가 20개 미만일 경우에는 훈련자료로 생성하지 않았다. 그 결과, 생성된 대용량 훈련자료는 총 341,820장의 학습 데이터와 44,389장의 검증 데이터로 구성된다. 제안 기법을 통해 생성된 훈련자료의 학습 및 검증 데이터 구성은 Fig. 5와 같다. 기준 및 입력 영상 패치는 모두 PNG 파일로 제작되었으며, pseudo-label인 정합점의 좌표와 homography matrix는 NPZ 파일 형식으로 구축되었다.
제안 기법을 이용하여 생성된 훈련자료의 유효성을 분석하고 검증하기 위해 End-to-end 매칭 네트워크를 설계하였다. 총 341,820장의 학습 데이터를 이용하여 End-to-end 매칭 네트워크를 구축하였다. 제안 네트워크의 성능은 다양한 피복으로 구성된 총 40장의 benchmark 데이터를 활용하여 평가하였다. 전통적인 특징기반 정합기법인 scale-invariant feature transform (SIFT), oriented FAST and rotated BRIEF (ORB)와 대표적인 딥러닝 기반 정합기법인 SuperPoint, SuperGlue 그리고 LoFTR과의 비교분석을 수행하였다. 다양한 정합기법의 구성요소는 Table 4와 같으며, SIFT, ORB 그리고 SuperPoint는 nearest neighbor distance ratio (NNDR) 기법으로 매칭을 수행하였다.
Table 4 Configuration of matching methods for comparison analysis
Method | Detector | Descriptor | Matcher |
---|---|---|---|
SIFT | SIFT | SIFT | NNDR |
ORB | ORB | ORB | NNDR |
SuperPoint | SuperPoint | SuperPoint | NNDR |
SuperGlue | SuperPoint | SuperPoint | SuperGlue |
LoFTR | - | - | - |
Proposed network | - | - | - |
Benchmark 데이터의 기준 및 입력 영상 패치에 다양한 정합기법을 적용하여 추출된 정합점 간 위치 오차가 3 pixels 이내일 경우에는 참정합점(truematching point), 나머지는 오정합점(falsematching point)으로 분류하였다. 임계값은 Zhu et al. (2023)의 실험 내용을 참고하여 선정하였다. Fig. 6은 추출된 정합점 간 위치 오차를 기반으로 분류된 참정합점 및 오정합점의 경향을 정성적으로 표현한 결과이며, 왼쪽은 기준 영상 패치, 오른쪽은 입력 영상 패치, 참정합점은 초록색 실선이고 오정합점은 빨간색 실선이다.
SIFT와 ORB 기법에서 추출된 정합점은 대다수가 오정합점으로 분류되었다. SuperPoint는 SIFT와 ORB 보다 높은 정확도로 참정합점을 추출하였지만 추출된 정합점 중 대다수가 오정합점으로 분류된 것을 확인할 수 있다. SuperGlue는 대다수의 정합점을 참정합점으로 추출하였다. LoFTR은 다수의 참정합점을 추출하였지만 오정합점의 비율이 높게 나타났다. 제안 네트워크는 다른 검출기에 비해 추출된 정합점의 개수는 작지만 대다수 참정합점으로 관측되었다.
제안 기법으로 생성된 훈련자료로 학습된 네트워크의 성능을 정량적으로 평가하기 위해 repeatability (Rep)를 산출하였다. Rep는 기하 및 분광특성이 상이한 기준 및 입력 영상에서 추출된 특징점 중 동일한 위치에 매칭된 참정합점의 비율을 정량적으로 나타낸다. Rep가 높을수록 정합기법이 다양한 특성에 강인하게 참정합점을 추출할 수 있다는 것을 의미한다. Rep는 식(11)과 같이 정의되며, 참정합점은 추출된 정합점 중 식(12)의 조건을 충족하는 경우에만 선정된다.
위 수식에서 TP는 참정합점, NTP는 참정합점 개수, Nfref와 Nfsen는 기준 및 입력 영상 특징점 개수를 나타낸다. ref (x, y)와 sen(x, y)는 각각 기준 및 입력 영상 정합점 좌표를 의미한다.
총 40장의 benchmark 데이터에서 참정합점 임계값(pixel threshold)을 1–10 pixels로 조정하면서 측정된 Rep의 평균값을 도출하였다. Fig. 7은 참정합점 임계값에 따른 Rep 변화 패턴을 나타낸다. SIFT 기법은 모든 임계값에서 Rep가 약 0.25로 산출되었다. ORB 기법은 임계값 1 pixel일 경우에 Rep가 0.1보다 낮은 값으로 도출되었으며, 임계값이 커질수록 Rep가 증가하다가 임계값 4 pixels부터는 Rep가 약 0.2로 수렴하였다. SuperPoint는 임계값 2–5 pixels에서 Rep가 SIFT와 ORB 보다 높게 산출되었다. 하지만 임계값 1 pixel에서는 SIFT보다 낮은 Rep가 도출되었다. SuperGlue는 임계값 2 pixels부터 Rep가 큰 폭으로 증가하였으며, 임계값 3 pixels부터 Rep가 약 0.45로 수렴하였다. LoFTR은 임계값 1 pixel인 경우는 Rep가 약 0.6으로 측정되었으며, 4 pixels부터는 약 0.8로 도출되었다. 제안 네트워크는 임계값 1 pixel에서 LoFTR 대비 Rep가 낮게 산출되었지만, 2 pixels부터는 다른 기법 대비 Rep가 가장 높게 측정되었다. 이를 통해 제안 기법의 훈련자료로 구축된 End-to-end 딥러닝 매칭 네트워크가 다른 정합기법 대비 위치 정확도가 높은 고품질의 정합점을 효과적으로 추출할 수 있는 것을 확인할 수 있다. 따라서, 제안된 기법으로 생성된 훈련 데이터는 다양한 기하학적 및 방사 왜곡 특성에 대해 강인성을 보이며, End-to-end 딥러닝 매칭 네트워크의 정확도 향상에 효과적일 것으로 판단된다.
End-to-end 매칭 네트워크의 자기지도학습을 위한 대용량 훈련자료를 자동으로 구축하기 위해 다양한 경로에서 취득된 고해상도 원격탐사 영상을 수집하였다. Homography warping module, brightness adjustment module 그리고 various noise genration module을 순차적으로 활용하여 기하 및 분광특성이 상이한 기준 및 입력 영상 패치를 생성하였다. 각 영상 패치에 MagicPoint, SuperPoint, KeyNet 그리고 DoG 알고리즘과 homographic adaptation을 병렬적으로 적용하여 서로 다른 특징점 검출기가 다양한 기하특성에서 동시에 탐지하는 특징점을 추출하였다. 입력 영상 패치에서 추출된 특징점의 좌표를 기준 영상 패치 좌표로 변환한 후 위치 오차가 1 pixel 이하일 경우에 정합점으로 선정하였다. Pseudo-label은 각 영상 패치에서 추출된 정합점의 좌표와 기하학적 관계를 설명하는 homography matrix로 구성된다. 본 연구를 통해 총 341,820장의 학습 데이터와 44,389장의 검증 데이터로 구성된 대용량 훈련자료를 생성하였다.
제안 기법을 이용하여 생성된 입력 영상 패치는 스케일, 회전, 변위정보와 밝기 및 대비가 변환되고 다양한 노이즈가 추가되어 기준 영상 패치와 상이한 기하 및 분광 특성정보를 갖고 있다. 서로 다른 특징점 검출기와 동일 좌표로 복원된 위치에 가중치를 부여하는 homographic adaptation을 통해 추출된 특징점을 기반으로 매칭된 정합점은 다양한 기하특성에 강인하면서 영상 내 식별되기 용이한 지역을 중심으로 분포하고 있다. 따라서, 제안 기법을 이용하여 생성된 훈련자료로 학습된 End-to-end 매칭 네트워크는 다른 정합기법 대비 참정합점의 비율이 높았으며, 평균적으로 Rep가 0.930으로 가장 높게 산출되었다. 이처럼 제안 기법은 pseudo-label의 정합점 개수 확보에 초점을 맞추기보다 정합점의 위치 정확도 및 강인성 부여에 초점을 맞추고 있으므로, End-to-end 매칭 네트워크의 강인성 및 정확성 확보에 중요한 역할을 할 수 있다. 또한, 제안 방법은 대용량 훈련자료 구축 시 요구되는 인력 및 시간비용을 절감할 수 있으며, 육안판독으로 인한 불확실성을 개선할 수 있다.
본 연구에서 제안한 훈련자료 자동 구축방법은 고해상도 원격탐사영상만 존재하면 효율적으로 고품질의 훈련자료 생성이 가능하다. 하지만, 제안 기법은 단일 영상 기반으로 생성된 기준 및 입력 영상 패치로 구성되어 있으므로, 실제 두 시기 영상에 존재하는 비선형적 특성과 관련된 복잡성을 고려하기가 어렵다. 추후 연구에서는 시공간 융합모델을 이용하여 실제 촬영 차이로 인한 왜곡 특성이 반영된 영상 패치를 구성하여 다양성을 확보할 예정이다. 또한, 고해상도 위성영상 뿐만 아니라 적외선 혹은 SAR 영상과의 이종센서 특성도 반영하기 위한 optical-to-SAR 혹은 optical-to-Infrared 생성형 모델을 적용하여 데이터셋의 범용성을 확장할 계획이다.
본 연구는 과학기술정보통신부의 “초소형위성 군집시스템의 활용지원시스템 및 활용기술개발(과제번호: 2021M1A3A4A11032019)”의 일환으로 수행되었으며, 한국항공우주연구원(KARI)에서 본 과제 목적으로 제공한 자료를 사용하였습니다.
No potential conflict of interest relevant to this article was reported.
Korean J. Remote Sens. 2024; 40(6): 1449-1460
Published online December 31, 2024 https://doi.org/10.7780/kjrs.2024.40.6.3.6
Copyright © Korean Society of Remote Sensing.
김태헌1, 서두천2, 김예지3, 김나영4, 이진민4, 이창희5, 한유경6*
1한국항공우주연구원 지상국기술연구부 선임연구원
2한국항공우주연구원 지상국기술연구부 책임연구원
3한국항공우주연구원 위성활용부 연구원
4서울과학기술대학교 건설시스템공학과 석사과정생
5서울과학기술대학교 건설시스템공학과 박사과정생
6서울과학기술대학교 건설시스템공학과 부교수
Taeheon Kim1 , Doochun Seo2 , Yeji Kim3, Nayoung Kim4, Jinmin Lee4, Changhui Lee5 , Youkyung Han6*
1Senior Researcher, Satellite Ground Station R&D Division, Korea Aerospace Research Institute, Daejeon, Republic of Korea
2Principal Researcher, Satellite Ground Station R&D Division, Korea Aerospace Research Institute, Daejeon, Republic of Korea
3Researcher, Satellite Application Division, Korea Aerospace Research Institute, Daejeon, Republic of Korea
4Master Student, Department of Civil Engineering, Seoul National University of Science and Technology, Seoul, Republic of Korea
5PhD Student, Department of Civil Engineering, Seoul National University of Science and Technology, Seoul, Republic of Korea
6Associate Professor, Department of Civil Engineering, Seoul National University of Science and Technology, Seoul, Republic of Korea
Correspondence to:Youkyung Han
E-mail: han602@seoultech.ac.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
In this study, we propose an automatic training dataset generation method to build a self-supervised matching network, using an End-to-end approach, to extract matching points between very high-resolution (VHR) satellite images. A homography matrix that transforms the scale, rotation, and translation of a single VHR remote-sensing image is applied to generate reference and sensed image patches. After adjusting the contrast and brightness of the sensed image patch, Gaussian and speckle noise are added, and shading and motion blur effects are applied to give it different characteristics from the reference image patch. Subsequently, multiple feature point extractors are combined with homographic adaptation to extract robustly detected feature points by different detectors under various geometric conditions from each image patch. The extracted feature points are optimized using the non-maximum suppression (NMS) technique. Feature point pairs with distance errors within 1 pixel between image patches are identified as matching points using the inverse homography matrix. The coordinates of these matching points, along with the homography matrix, are then employed as pseudo-labels. Training data was generated only when the automated method, applied to the VHR remote sensing database collected from various sources, extracted more than 20 matching points. As a result, training and validation datasets were generated, comprising a total of 341,820 and 44,389 image patches, respectively. The End-to-end matching network trained with the proposed dataset extracted matching points more accurately compared to other matching methods and deep learning networks. Therefore, the proposed method can automatically generate high-quality pseudo-labels that reflect the characteristics of VHR satellite images, thereby improving the training efficiency of deep learning networks.
Keywords: Automatic training dataset generation method, Self-supervised matching network, End-to-end, Matching point, Very high-resolution satellite images
고해상도(very high-resolution, VHR) 위성영상은 높은 공간해상도를 바탕으로 신뢰도 높은 정보를 사용자에게 제공할 수 있어 국토관리, 국방, 재난 및 재해 모니터링, 그리고 기후변화 등 다양한 분야의 핵심 데이터로 활용되고 있다. 하지만 일반적으로 동일지역에서 촬영된 고해상도 위성영상은 탑재체 특성 차이, 지구 자전 및 공전, 그리고 촬영 시기에 따른 지구 표면의 복합적인 변화 특성 등과 같이 다양한 요소로 인해 영상 간 상대적인 기하오차(geometricmisalignment)가 발생한다(Kim and Han, 2021; Han et al., 2022). 이러한 기하오차는 다시기 위성영상 산출물 품질을 저해하는 주된 요인으로 작용하기 때문에 이를 최소화하는 전처리 작업이 필수적으로 수행되어야 한다.
상대기하보정(image registration)은 고해상도 위성영상 간 동일 위치에서 정합점(matching point)을 추출한 후 이를 기반으로 구성된 변환모델을 이용하여 기하오차를 보정하는 전처리 작업이다. 일반적으로 상대기하보정은 정합점을 추출하는 방법에 따라 특징기반 정합기법(feature-based matching method)과 영역기반 정합기법(area-based matching method)으로 구분된다. 이러한 전통적인 정합기법은 영상 정보만을 이용하여 정합점을 추출할 수 있어 범용성이 높다. 하지만 특징기반 정합기법은 서술벡터 특성에 의존적이고, 영역기반 정합기법은 초기 기하왜곡 차이에 취약하여 고해상도 위성영상 간 복합적은 특성 차이에 강인한 정합점을 추출하기에는 한계점이 존재한다. 전통적인 정합기법의 한계점을 개선하기 위해 딥러닝 기술을 이용하여 정합점을 추출하는 딥러닝 기반 정합기법(deep learningbasedmatchingmethod)의 중요성이 대두되고 있다.
딥러닝 기반 정합기법은 입력 데이터의 다양한 특성을 설명하는 고차원 특징정보를 활용하여 영상 간 동일 위치에서 정합점을 추출하는 방법이다(Yang et al., 2018; Dong et al., 2019; Kim et al., 2023b). 다양한 딥러닝 기반 정합기법 중 End-to-end 매칭 방법은 특징점 추출, 서술벡터 생성 그리고 특징점 매칭과정을 통합하여 다수의 정합점을 추출하는 방법이다(Sun et al., 2021; Liang et al., 2023). 이러한 End-to-end 매칭 방법은 특징점 및 서술벡터와 같은 특정 데이터에 의존적인 문제를 해결할 수 있고, 하나의 네트워크만을 이용하기 때문에 다른 네트워크 및 매칭 알고리즘과의 연계과정 없이 독립적으로 활용할 수 있다. 이에, detector-free local feature matching with transformers (LoFTR) (Sun et al., 2021), dual-branch cross fusion Network (DF-Net) (Li et al., 2023) 그리고 radiation-variation Insensitive, zero-shot learning-based registration (RIZER) (Li et al., 2024)와 같은 다양한 방식의 End-to-end 매칭 네트워크가 제안되었다. 하지만 기 개발된 네트워크는 일반 영상, 중저해상도 위성영상, synthetic aperture radar (SAR) 영상 그리고 이종센서 위성영상에 최적화되어 있어 다시기(multi-temporal) 혹은 다중센서(multi-sensor) 고해상도 위성영상 상대기하보정에 직접적으로 적용하기에는 불확실성이 존재한다.
고해상도 위성영상의 복합적인 특성을 반영하여 End-to-end 방식으로 정합점을 추출하는 딥러닝 네트워크를 구축하기 위해서는 대용량 훈련자료가 요구된다. 훈련자료에는 정확한 위치에 존재하는 정합점의 전반적인 특성을 나타내는 라벨(label) 데이터가 포함되어야 한다. 하지만, 일반적으로 훈련자료 생성 시 육안판독을 통해 영상 내 라벨을 선정하기 때문에 많은 인력 및 시간 비용이 소모된다. 또한, 높은 정확도로 상대기하보정을 수행하기 위해서는 다수의 정합점이 확보되어야 하지만, 이를 위해 정합점 후보군 위치를 모두 라벨로 판독하는 것은 현실적으로 불가능하다. 이에 라벨이 없는 데이터로부터 pseudo-label을 생성하여 네트워크를 구축하는 자기지도 학습(self-supervised learning)의 중요성이 확대되고 있다.
대표적인 자기지도학습 방식의 딥러닝 정합기법은 다른 알고리즘을 이용하여 추출된 정합점 혹은 특징점 위치를 pseudo-label로 활용하여 딥러닝 네트워크를 학습하는 방법이다(Li et al., 2022). 이러한 자기지도학습 방법은 자동으로 대용량 훈련자료 구축이 가능하고, 다양한 종류의 데이터에서 pseudo-label을 효율적으로 생성할 수 있어 훈련자료의 다양성을 효율적으로 확보할 수 있다. 자기지도학습 방식으로 정합점 추출 네트워크를 학습시키기 위해 사전학습된 네트워크를 이용하여 훈련자료를 구축하는 방법(DeTone et al., 2018), 이종센서 영상에서 pseudo-label을 자동으로 생성하는 방법(Zhao et al., 2022), SAR 영상에서 기하학적 왜곡에 강인한 pseudo-label을 추출하는 방법(Zou et al., 2022), base detector를 고도화하여 pseudolabel의 품질을 개선하는 방법(Kim et al., 2023a)과 같이 다양한 방법론이 제안되었다. 하지만 기존 방법들은 모두 특정 알고리즘에서만 생성된 pseudo-label만을 이용하기 때문에 네트워크의 일반화 성능이 저하되는 문제점이 존재한다. 이처럼 하나의 알고리즘에서만 추출된 특징점 혹은 정합점만을 pseudo-label로 이용하게 되면 네트워크의 성능이 특정 알고리즘에 편향되어 변별력이 저하된다. 따라서 다시기 혹은 다중센서 고해상도 위성영상의 도메인 특성을 반영하면서 다양한 기하 및 방사 왜곡에 강인한 정합점을 추출하기 위해서는 고품질의 pseudo-label을 자동으로 생성하여 훈련자료를 구축하는 방법이 필요하다.
본 연구에서는 고해상도 위성영상 간 End-to-end 방식으로 정합점을 추출하는 자기지도학습 네트워크를 구축하기 위해 고품질의 pseudo-label을 생성하여 대용량 훈련자료를 자동으로 생성하는 방법을 제안한다. 다양한 경로에서 취득된 고해상도 원격탐사 영상을 기반으로 기하 및 분광특성이 상이한 영상 패치 쌍을 생성한다. 서로 다른 4개의 특징점 검출기(feature extractor)와 homographic adaptation을 이용하여 기하왜곡에 강인한 특징점을 기반으로 정합점을 추출한다. 정합점의 좌표와 영상 패치 쌍의 기하학적 관계를 나타내는 homography matirx를 pseudo-label로 할당하여 훈련자료를 자동으로 구축한다. 본 연구에서 생성된 훈련자료로 End-to-end 매칭 네트워크를 학습하고 다른 정합기법과의 비교분석을 통해 유효성을 검증한다.
자기지도학습 딥러닝 네트워크를 구축하기 위해서는 대용량 훈련자료가 필요하다. 이에 본 연구에서는 Fig. 1과 같이 pseudo-label을 자동으로 생성하여 대용량 훈련자료를 구축하는 방법론을 제안한다. 위성, 항공기 및 무인항공기와 같이 다양한 경로에서 취득된 고해상도 원격탐사 영상을 수집한다. Homography warping module, brightness adjustmentmodule 그리고 various noise generationmodule을 순차적으로 이용하여 기하 및 분광특성이 상이한 기준 영상 패치(reference image patch)와 입력 영상 패치(sensed image patch)를 생성한다. 각 영상 패치에 대해 homographic adaptation을 수행하면서 다양한 특징점 검출기(feature point extractor)를 병렬적으로 적용하여 특징점을 추출한다. 이어서 기준 및 입력 영상 패치 간 동일 위치에 존재하는 특징점을 정합점으로 추출하고, 정합점의 좌표와 homography matrix를 pseudo-label로 선정하여 자동으로 훈련자료를 구축한다.
기하 특성이 서로 상이한 기준 및 입력 영상 패치를 생성하기 위해 homography warping module을 이용한다. Homography warping module은 기하 특성을 변환하는 homographymatrix를 이용하여 다양한 경로에서 취득된 고해상도 원격탐사 영상을 기준 및 입력 영상 패치로 생성한다. 기준 영상 패치는 고해상도 원격탐사 영상을 일정 크기로 분할한 후 2% linear strectch를 수행하여 생성된다. Homography matrix는 식(1)과 같이 3 × 3 형태의 9개의 요소를 갖춘 형태로 정의되며, 식(2)와 같이 활용하여 기준 영상 패치의 스케일, 회전, 변위 그리고 전단(shear) 정보를 변환하는 방식으로 입력 영상 패치를 생성한다. 이때, 기준 영상 패치마다 homographymatrix의 계수가 변경되어 생성된 입력 영상 패치 간 기하특성의 중복성을 최소화하면서 다양성을 확보한다.
위 수식에서 H는 무작위 homographymatrix, h00, …, h22는 homography matrix의 계수, i는 영상 패치 개수, RI와 SI는 기준 및 입력 영상 패치를 의미한다.
입력 영상 패치는 homography warping module을 통해 생성되었기 때문에 기준 입력 영상 패치와 상이한 기하특성을 가지고 있다. 하지만 일반적으로 고해상도 위성영상은 촬영시기에 따라 기하 및 분광특성이 모두 상이하므로 복합적인 특성을 고려해야 한다. 이에 본 연구에서는 brightness adjustment module을 이용하여 입력 영상 패치의 밝기(brightness)와 대비(contrast)를 조정한다. 입력 영상 패치의 밝기는 중복성을 방지하기 위해 일정 범위 내에서 무작위로 도출된 조정값을 통해 변환된다. 대비정보는 식(3)과 같이 입력 영상 패치의 평균 밝기값과 대비조정 계수를 이용하여 조정된다. 이때, 대비조정 계수는 다양성 확보를 위해 [0.2, 0.3] 범위 내에서 무작위로 도출된 값을 이용한다.
위 수식에서 SI′는 대비가 조정된 입력 영상 패치, μ는 입력 영상 패치의 평균 밝기값, 그리고 α는 대비조정 계수를 나타낸다.
다중센서 혹은 다시기 고해상도 위성영상은 촬영 시기 차이로 인해 변화지역이 존재하거나 그림자, 지형차폐, 구름 등과 같은 노이즈 데이터가 식별된다. 이러한 노이즈 데이터를 훈련자료에 반영하기 위해 본 연구에서는 various noise generation module을 이용하여 입력 영상 패치 내 다양한 노이즈를 생성한다. 이를 위해 가우시안(Gaussian) 및 스펙클(speckle) 노이즈를 생성하고 셰이딩(shading)을 통해 입력 영상 패치 내 특정 영역의 조도를 변환한다. 또한, 모션 블러(motion blur) 효과를 추가함으로써 객체 선명도를 낮춰 기준 영상 패치와 상이한 특성을 갖게 한다. 가우시안 노이즈의 스케일 파라미터는 [0, 10], 스펙클 노이즈의 확률 분포는 [0, 0.0035] 범위 내 무작위 난수로 도출된 값이다. 쉐이딩 효과의 커널 사이즈는 [100, 150] 범위의 무작위 정수 값, 투명도(transparency)는 [–0.5, 0.5] 범위의 무작위 난수값 그리고 타원(ellipses)의 개수는 20개로 설정된다. 마지막으로 모션 블러 효과의 커널 크기는 [0, 4] 범위 내 무작위 정수값이다.
본 연구에서는 서로 다른 특성을 갖고 있는 4개의 특징점 검출기가 공통으로 탐지하는 특징점을 기반으로 선정된 정합점을 pseudolabel로 이용하여 라벨 데이터의 품질 및 신뢰성을 확보하고자 한다. 이를 위해 synthetic shapes dataset으로 학습된MagicPoint (DeTone et al., 2017), MSCOCO 2014 dataset으로 학습된 SuperPoint (DeTone et al., 2018), ImageNet dataset으로 학습된 KeyNet (Barroso-Laguna et al., 2022) 그리고 difference of Gaussian (DoG) 기법에 homographic adaptation 기법을 병렬적으로 적용한다.
기준 및 입력 영상 패치에 서로 다른 특성을 지닌 특징점 검출기를 병렬적으로 적용한다. 이때, 다양한 기하학적 특성을 반영하기 위해 homographic adaptation 기법을 특징점 검출기과 함께 활용하여 특징점을 추출한다. 식(4)와 같이 homographymatrix를 통해 기하특성이 변환된 영상 패치와 동일한 크기의 특징점 확률맵을 추정한 후 이를 원본 좌표로 복원시킨다.
위 수식에서 Hp는 특징점 확률맵, H는 homographic matrix, fθ는 특징점 검출기, I는 영상 패치 그리고H–1는 inverse homographicmatrix를 의미한다.
기존의 homographic adaptation은 위의 과정을 반복적으로 수행하여 추출된 특징점을 모두 pseudo-label로 이용하는 방식으로 기하학적 특성을 반영하면서 데이터 불균등을 방지한다. 하지만 고해상도 위성영상 상대기하보정 정확도를 개선하기 위해서는 다수의 정합점을 이용하기 보다 높은 위치정확도를 갖는 고품질의 정합점을 균등하게 추출하는 것이 중요하다(Kim et al., 2023a; 2023b). 이에 본 연구에서는 homographic adaptation을 반복 수행하면서 평균적으로 동일 위치에서 식별되는 특징점 위치를 추정하기 위해 식(5)와 같은 연산 과정을 수행하였다. 이러한 homopraphic adaptation은 특징점 검출기마다 반복적으로 30번씩 수행되므로, 총 120가지의 다양한 기하특성을 고려할 수 있다
위 수식에서
MagicPoint, SuperPoint, KeyNet 그리고 DoG 기법에 homographic adaptation을 병렬적으로 적용하여 기준 및 입력 패치에서 특징점 확률맵을 생성한다. 특징점 검출기의 작동방식 및 homography matrix의 계수 변화 특성에 따라 각 영상 패치에서 생성된 4개의 특징점 확률맵은 서로 다른 특성을 나타낸다. 다양한 기하 조건에서 강력하게 식별되는 특징점만을 이용하기 위해 본 연구에서는 서로 다른 특성을 지닌 특징점 검출기가 다양한 기하왜곡 조건에서 공통으로 탐지하는 특징점만을 추출한다. 이를 위해 4개의 확률맵을 식(6)과 같이 하나로 병합한 후 식(7)과 같이 정규화한다. 그 후, Np에 임계값 0.7을 적용하여 특징점을 추출한다.
위 수식에서 Mp는 병합된 특징점 확률맵, N은 특징점 확률맵 개수, fpi는 다양한 특징점 검출기에서 생성된 특징점 확률맵 그리고 Np는 정규화된 특징점 확률맵을 나타낸다.
추출된 특징점은 다양한 기하 조건에서 서로 다른 4개의 검출기가 공통으로 탐지한 데이터이지만, 특정 객체 및 피복에 편향될 수 있다. 이는 End-to-end 정합점 추출 네트워크 학습 시 과적합(overfitting)을 유발할 수 있어 pseudo-label의 신뢰성 및 품질을 저해한다. 이에 본 연구에서는 non-maximum suppression (NMS) 기법을 이용하여 추출된 특징점의 분포를 최적화하는 과정을 수행한다. NMS 기법은 객체탐지 분야에서 관심 객체에 대해 탐지된 여러 개의 bounding box 간 연산과정을 통해 최적의 bounding box를 확보하는 방법이다. 본 연구에서는 NMS 기법을 특징점 분포 최적화 과정에 적합하게 변형하여 이용한다. 먼저, Fig. 2와 같이 추출된 특징점을 중심으로 9 × 9 pixels 크기의 bounding box를 생성한다. 서로 중첩된 bounding box의 intersection over union (IoU)이 0.3 이상일 경우 확률값이 가장 높은 bounding box에 해당하는 특징점만을 선정하고 나머지는 제거한다. 여기서, 확률값은 식(6)과 (7)의 연산 과정을 통해 산출된 Np에서 특징점의 위치와 대응되는 데이터이다.
기준 및 입력 영상 패치에서 최적화 작업까지 수행된 특징점을 기반으로 정합점을 추출하기 위해 기하 관계를 설명하는 homography matrix를 이용한다. 입력 영상 패치의 특징점 좌표를 식(8)과 같이 기준 영상 패치 좌표로 변환한 후 식(9)와 같이 정의된 특징점 간 유클리드 거리 기반의 위치 오차를 추정한다. 특징점 간 위치 오차가 1 pixel 이하인 경우에는 정합점으로 선정하고, 정합점 좌표정보와 기하 관계를 나타내는 homography matrix를 pseudo-label로 할당하여 훈련자료를 자동으로 구축한다.
위 수식에서 s는 입력 영상 특징점, s′ = (s′x, s′y)와 r = (rx, ry)는 변환된 입력 영상 특징점 및 기준 영상 특징점을 의미한다. d(r, s′)는 기준 및 변환된 입력 영상 특징점 간 위치 오차를 나타낸다.
우수한 성능의 딥러닝 네트워크를 구축하기 위해서는 일반적으로 다양한 특성을 가진 대용량 훈련자료가 요구된다. 이를 위해 본 연구에서는 위성, 무인항공기, 항공기와 같이 다양한 경로에서 취득된 고해상도 광학 영상을 수집하였다. 인공지능 학습용 데이터 구축 및 사업의 일환으로 AI hub에서 제공하는 토지 피복 분류 목적으로 항공정사영상과 라벨 데이터를 제공한다. End-to-end 매칭 네트워크 학습자료 생성을 위해 수도권역, 강원 및 충청권역, 경상권역, 전라권역 그리고 제주도 지역의 항공정사영상을 수집하였으며, 해당 데이터의 세부정보는 Table 1과 같다.
Table 1 . Specification of aerial orthophotos acquired from AI hub.
Area | Number of image patch | GSD (Unit: pixel) | Image patch size (Unit: pixel) |
---|---|---|---|
Seoul Metropolitan | 9,299 | 0.51 | 512 × 512 |
Ganwon and Chungcheong | 83,881 | ||
Gyeongsang | 87,679 | 0.25 | |
Jeolla | 23,421 | ||
Jeju | 19,626 |
GSD: Ground Sample Distance..
훈련자료의 다양성을 확보하여 네트워크의 일반화 성능을 강화하기 위해 변화탐지 목적으로 제작된 고해상도 원격탐사 영상 기반 오픈소스 데이터를 수집하였다. SECOND 데이터셋은 무인항공기, 항공기, 그리고 위성을 이용하여 중국의 주요 도시를 촬영한 고해상도 광학영상으로 구성되어 있다(Yang et al., 2021). CLCD 데이터셋은 Gaofen-2 위성을 이용하여 중국 광동성의 농경지를 촬영한 영상이고(Liu et al., 2022), LEVIR-CD 데이터셋은 미국 텍사스 주의 다양한 지역에서 Google Earth Engine을 통해 수집된 고해상도 영상으로 구성된다(Chen and Shi, 2020). S2 Looking 데이터셋은 side-looking 촬영방식으로 취득된 고해상도 위성영상이며(Shen et al., 2021), HRCD 데이터셋은 프랑스 렌과 캉 지역에 대해 항공기를 이용하여 수집된 고해상도 영상이다(Daudt et al., 2019). 변화탐지 목적의 오픈소스 데이터셋에 관한 세부정보는 Table 2와 같다.
Table 2 . Specification of aerial orthophotos acquired from AI hub.
Dataset | Number of image patch | GSD (Unit: pixel) | Image patch size (Unit: pixel) |
---|---|---|---|
SECOND | 5,936 | 0.5 | 512 × 512 |
CLCD | 1,200 | 0.5–2 | 512 × 512 |
LEVIR-CD | 1,274 | 0.5 | 1,024 × 1,024 |
S2 Looking | 10,000 | 0.5–0.8 | 1,024 × 1,024 |
HRSCD | 380 | 0.5 | 10,000 × 10,000 |
다양한 종류의 고해상도 위성영상 도메인 특성을 딥러닝 네트워크에 학습시키기 위해 KOMPSAT-3·3A, WorldView-3, QuickBird 그리고 PlanetScope에서 취득된 고해상도 영상을 수집하였다. 본 연구에서는 국내외 주요 도심지를 대상으로 취득된 KOMPSAT-3·3A 전정색(panchromatic) 영상, 광주, 부산 그리고 서울 지역에서 취득된 WorldView-3 전정색 영상, 대전 지역을 촬영한 QuickBird 전정색 영상을 이용하였다. 미국과 대한민국 농경지 및 산림지역에서 취득된 PlanetScope의 다중분광 영상을 전정색 영상으로 변환하여 수집하였다. 대용량 훈련자료 구축에 이용된 다양한 종류의 고해상도 위성영상에 관한 세부 정보는 Table 3에 정리되어 있다.
Table 3 . Specification of VHR satellite imagery.
Satellite | GSD (Unit: m) | Radiometric resolution | Processing level |
---|---|---|---|
KOMPSAT-3 | 0.7 | 14 bit | Level 1R·1G |
KOMPSAT-3A | 0.55 | 14 bit | Level 1R·1G |
WorldView-3 | 0.31 | 11 bit | Level 2A |
QuickBird | 0.61 | 11 bit | Level 2A |
PlanetScope | 3 | 12 bit | Level 3A |
다양한 경로에서 수집된 고해상도 원격탐사 영상의 규격을 통일시키기 위한 작업을 수행하였다. AI hub에서 제공되는 항공정사영상은 512 × 512 pixels 크기의 광학 영상을 흑백 영상으로 변환하였다. 영상 패치의 크기가 서로 상이한 변화탐지 오픈소스 데이터셋 영상은 모두 512 × 512 pixels 크기와 흑백 영상으로 재구성하였다. 또한, 다양한 고해상도 위성영상을 512 × 512 pixels 크기의 영상 패치로 분할하였다. 위의 과정을 통해 생성된 영상 패치의 히스토그램을 2% linear stretch를 통해 조정한 후 데이터 타입을 모두 Uint 8 형식으로 통일하여 데이터베이스를 구축하였다.
제안기법을 통해 생성된 기준 및 입력 영상 패치는 Fig. 3과 같다. 기준 영상 패치는 히스토그램이 균등하게 조정된 흑백 영상이며, 데이터베이스 내 단일 영상 패치와 동일한 기하 및 분광특성을 가지고 있다. 입력 영상 패치는 기준 영상 패치에 homographymatrix를 적용하여 기하특성이 변화되었다. 또한, 입력 영상 패치의 밝기값 및 대비가 조정되었으며, 가우시안 및 스펙클 노이즈와 셰이딩 효과가 추가 되었다. 이처럼 입력 영상 패치는 기준 영상 패치에서 생성되었지만 기하 및 분광특성을 변화시켜 서로 상이한 특성을 나타내고 있는 것을 확인할 수 있다.
제안 기법을 이용하여 기준 및 입력 영상 패치 간 추출된 정합점은 Fig. 4와 같으며, 왼쪽 영상이 기준 영상 패치이고 오른쪽 영상이 입력 영상 패치이다. 두 영상 패치 간 스케일에 강인한 특성을 보이는 피복 및 도로 경계면, 건물 모서리 부분에서 다수의 정합점이 추출되었다. 추출된 정합점은 4개의 서로 다른 검출기가 다양한 기하 조건에서 공통적으로 탐지한 특징점을 기반으로 추출되었기 때문에 기하 왜곡에 강인하다고 볼 수 있다. 또한, 제안기법에서 도출된 정합점은 기준 및 입력 영상 패치 간 상이한 방사 특성 및 다양한 노이즈의 영향이 고려되었으며, 영상 좌표상 위치 정보를 기반으로 매칭되었기 때문에 위치 신뢰도가 높다. 이를 통해, 본 연구에서 제안한 방법을 통해 추출된 정합점은 pseudo-label로 활용하기에 적합하다고 판단된다. 따라서, 제안 기법을 통해 추출된 기준 및 입력 영상 패치의 정합점 좌표와 영상 패치 간 기하학적 관계를 나타내는 homography matrix를 pseudo-label로 선정하였다.
본 연구에서는 다양한 경로에서 취득된 고해상도 영상 데이터베이스에 제안기법을 적용하여 추출된 정합점의 개수가 20개 미만일 경우에는 훈련자료로 생성하지 않았다. 그 결과, 생성된 대용량 훈련자료는 총 341,820장의 학습 데이터와 44,389장의 검증 데이터로 구성된다. 제안 기법을 통해 생성된 훈련자료의 학습 및 검증 데이터 구성은 Fig. 5와 같다. 기준 및 입력 영상 패치는 모두 PNG 파일로 제작되었으며, pseudo-label인 정합점의 좌표와 homography matrix는 NPZ 파일 형식으로 구축되었다.
제안 기법을 이용하여 생성된 훈련자료의 유효성을 분석하고 검증하기 위해 End-to-end 매칭 네트워크를 설계하였다. 총 341,820장의 학습 데이터를 이용하여 End-to-end 매칭 네트워크를 구축하였다. 제안 네트워크의 성능은 다양한 피복으로 구성된 총 40장의 benchmark 데이터를 활용하여 평가하였다. 전통적인 특징기반 정합기법인 scale-invariant feature transform (SIFT), oriented FAST and rotated BRIEF (ORB)와 대표적인 딥러닝 기반 정합기법인 SuperPoint, SuperGlue 그리고 LoFTR과의 비교분석을 수행하였다. 다양한 정합기법의 구성요소는 Table 4와 같으며, SIFT, ORB 그리고 SuperPoint는 nearest neighbor distance ratio (NNDR) 기법으로 매칭을 수행하였다.
Table 4 . Configuration of matching methods for comparison analysis.
Method | Detector | Descriptor | Matcher |
---|---|---|---|
SIFT | SIFT | SIFT | NNDR |
ORB | ORB | ORB | NNDR |
SuperPoint | SuperPoint | SuperPoint | NNDR |
SuperGlue | SuperPoint | SuperPoint | SuperGlue |
LoFTR | - | - | - |
Proposed network | - | - | - |
Benchmark 데이터의 기준 및 입력 영상 패치에 다양한 정합기법을 적용하여 추출된 정합점 간 위치 오차가 3 pixels 이내일 경우에는 참정합점(truematching point), 나머지는 오정합점(falsematching point)으로 분류하였다. 임계값은 Zhu et al. (2023)의 실험 내용을 참고하여 선정하였다. Fig. 6은 추출된 정합점 간 위치 오차를 기반으로 분류된 참정합점 및 오정합점의 경향을 정성적으로 표현한 결과이며, 왼쪽은 기준 영상 패치, 오른쪽은 입력 영상 패치, 참정합점은 초록색 실선이고 오정합점은 빨간색 실선이다.
SIFT와 ORB 기법에서 추출된 정합점은 대다수가 오정합점으로 분류되었다. SuperPoint는 SIFT와 ORB 보다 높은 정확도로 참정합점을 추출하였지만 추출된 정합점 중 대다수가 오정합점으로 분류된 것을 확인할 수 있다. SuperGlue는 대다수의 정합점을 참정합점으로 추출하였다. LoFTR은 다수의 참정합점을 추출하였지만 오정합점의 비율이 높게 나타났다. 제안 네트워크는 다른 검출기에 비해 추출된 정합점의 개수는 작지만 대다수 참정합점으로 관측되었다.
제안 기법으로 생성된 훈련자료로 학습된 네트워크의 성능을 정량적으로 평가하기 위해 repeatability (Rep)를 산출하였다. Rep는 기하 및 분광특성이 상이한 기준 및 입력 영상에서 추출된 특징점 중 동일한 위치에 매칭된 참정합점의 비율을 정량적으로 나타낸다. Rep가 높을수록 정합기법이 다양한 특성에 강인하게 참정합점을 추출할 수 있다는 것을 의미한다. Rep는 식(11)과 같이 정의되며, 참정합점은 추출된 정합점 중 식(12)의 조건을 충족하는 경우에만 선정된다.
위 수식에서 TP는 참정합점, NTP는 참정합점 개수, Nfref와 Nfsen는 기준 및 입력 영상 특징점 개수를 나타낸다. ref (x, y)와 sen(x, y)는 각각 기준 및 입력 영상 정합점 좌표를 의미한다.
총 40장의 benchmark 데이터에서 참정합점 임계값(pixel threshold)을 1–10 pixels로 조정하면서 측정된 Rep의 평균값을 도출하였다. Fig. 7은 참정합점 임계값에 따른 Rep 변화 패턴을 나타낸다. SIFT 기법은 모든 임계값에서 Rep가 약 0.25로 산출되었다. ORB 기법은 임계값 1 pixel일 경우에 Rep가 0.1보다 낮은 값으로 도출되었으며, 임계값이 커질수록 Rep가 증가하다가 임계값 4 pixels부터는 Rep가 약 0.2로 수렴하였다. SuperPoint는 임계값 2–5 pixels에서 Rep가 SIFT와 ORB 보다 높게 산출되었다. 하지만 임계값 1 pixel에서는 SIFT보다 낮은 Rep가 도출되었다. SuperGlue는 임계값 2 pixels부터 Rep가 큰 폭으로 증가하였으며, 임계값 3 pixels부터 Rep가 약 0.45로 수렴하였다. LoFTR은 임계값 1 pixel인 경우는 Rep가 약 0.6으로 측정되었으며, 4 pixels부터는 약 0.8로 도출되었다. 제안 네트워크는 임계값 1 pixel에서 LoFTR 대비 Rep가 낮게 산출되었지만, 2 pixels부터는 다른 기법 대비 Rep가 가장 높게 측정되었다. 이를 통해 제안 기법의 훈련자료로 구축된 End-to-end 딥러닝 매칭 네트워크가 다른 정합기법 대비 위치 정확도가 높은 고품질의 정합점을 효과적으로 추출할 수 있는 것을 확인할 수 있다. 따라서, 제안된 기법으로 생성된 훈련 데이터는 다양한 기하학적 및 방사 왜곡 특성에 대해 강인성을 보이며, End-to-end 딥러닝 매칭 네트워크의 정확도 향상에 효과적일 것으로 판단된다.
End-to-end 매칭 네트워크의 자기지도학습을 위한 대용량 훈련자료를 자동으로 구축하기 위해 다양한 경로에서 취득된 고해상도 원격탐사 영상을 수집하였다. Homography warping module, brightness adjustment module 그리고 various noise genration module을 순차적으로 활용하여 기하 및 분광특성이 상이한 기준 및 입력 영상 패치를 생성하였다. 각 영상 패치에 MagicPoint, SuperPoint, KeyNet 그리고 DoG 알고리즘과 homographic adaptation을 병렬적으로 적용하여 서로 다른 특징점 검출기가 다양한 기하특성에서 동시에 탐지하는 특징점을 추출하였다. 입력 영상 패치에서 추출된 특징점의 좌표를 기준 영상 패치 좌표로 변환한 후 위치 오차가 1 pixel 이하일 경우에 정합점으로 선정하였다. Pseudo-label은 각 영상 패치에서 추출된 정합점의 좌표와 기하학적 관계를 설명하는 homography matrix로 구성된다. 본 연구를 통해 총 341,820장의 학습 데이터와 44,389장의 검증 데이터로 구성된 대용량 훈련자료를 생성하였다.
제안 기법을 이용하여 생성된 입력 영상 패치는 스케일, 회전, 변위정보와 밝기 및 대비가 변환되고 다양한 노이즈가 추가되어 기준 영상 패치와 상이한 기하 및 분광 특성정보를 갖고 있다. 서로 다른 특징점 검출기와 동일 좌표로 복원된 위치에 가중치를 부여하는 homographic adaptation을 통해 추출된 특징점을 기반으로 매칭된 정합점은 다양한 기하특성에 강인하면서 영상 내 식별되기 용이한 지역을 중심으로 분포하고 있다. 따라서, 제안 기법을 이용하여 생성된 훈련자료로 학습된 End-to-end 매칭 네트워크는 다른 정합기법 대비 참정합점의 비율이 높았으며, 평균적으로 Rep가 0.930으로 가장 높게 산출되었다. 이처럼 제안 기법은 pseudo-label의 정합점 개수 확보에 초점을 맞추기보다 정합점의 위치 정확도 및 강인성 부여에 초점을 맞추고 있으므로, End-to-end 매칭 네트워크의 강인성 및 정확성 확보에 중요한 역할을 할 수 있다. 또한, 제안 방법은 대용량 훈련자료 구축 시 요구되는 인력 및 시간비용을 절감할 수 있으며, 육안판독으로 인한 불확실성을 개선할 수 있다.
본 연구에서 제안한 훈련자료 자동 구축방법은 고해상도 원격탐사영상만 존재하면 효율적으로 고품질의 훈련자료 생성이 가능하다. 하지만, 제안 기법은 단일 영상 기반으로 생성된 기준 및 입력 영상 패치로 구성되어 있으므로, 실제 두 시기 영상에 존재하는 비선형적 특성과 관련된 복잡성을 고려하기가 어렵다. 추후 연구에서는 시공간 융합모델을 이용하여 실제 촬영 차이로 인한 왜곡 특성이 반영된 영상 패치를 구성하여 다양성을 확보할 예정이다. 또한, 고해상도 위성영상 뿐만 아니라 적외선 혹은 SAR 영상과의 이종센서 특성도 반영하기 위한 optical-to-SAR 혹은 optical-to-Infrared 생성형 모델을 적용하여 데이터셋의 범용성을 확장할 계획이다.
본 연구는 과학기술정보통신부의 “초소형위성 군집시스템의 활용지원시스템 및 활용기술개발(과제번호: 2021M1A3A4A11032019)”의 일환으로 수행되었으며, 한국항공우주연구원(KARI)에서 본 과제 목적으로 제공한 자료를 사용하였습니다.
No potential conflict of interest relevant to this article was reported.
Table 1 . Specification of aerial orthophotos acquired from AI hub.
Area | Number of image patch | GSD (Unit: pixel) | Image patch size (Unit: pixel) |
---|---|---|---|
Seoul Metropolitan | 9,299 | 0.51 | 512 × 512 |
Ganwon and Chungcheong | 83,881 | ||
Gyeongsang | 87,679 | 0.25 | |
Jeolla | 23,421 | ||
Jeju | 19,626 |
GSD: Ground Sample Distance..
Table 2 . Specification of aerial orthophotos acquired from AI hub.
Dataset | Number of image patch | GSD (Unit: pixel) | Image patch size (Unit: pixel) |
---|---|---|---|
SECOND | 5,936 | 0.5 | 512 × 512 |
CLCD | 1,200 | 0.5–2 | 512 × 512 |
LEVIR-CD | 1,274 | 0.5 | 1,024 × 1,024 |
S2 Looking | 10,000 | 0.5–0.8 | 1,024 × 1,024 |
HRSCD | 380 | 0.5 | 10,000 × 10,000 |
Table 3 . Specification of VHR satellite imagery.
Satellite | GSD (Unit: m) | Radiometric resolution | Processing level |
---|---|---|---|
KOMPSAT-3 | 0.7 | 14 bit | Level 1R·1G |
KOMPSAT-3A | 0.55 | 14 bit | Level 1R·1G |
WorldView-3 | 0.31 | 11 bit | Level 2A |
QuickBird | 0.61 | 11 bit | Level 2A |
PlanetScope | 3 | 12 bit | Level 3A |
Table 4 . Configuration of matching methods for comparison analysis.
Method | Detector | Descriptor | Matcher |
---|---|---|---|
SIFT | SIFT | SIFT | NNDR |
ORB | ORB | ORB | NNDR |
SuperPoint | SuperPoint | SuperPoint | NNDR |
SuperGlue | SuperPoint | SuperPoint | SuperGlue |
LoFTR | - | - | - |
Proposed network | - | - | - |