본문 바로가기

컴퓨터 비전3

D-FINE: 객체 탐지의 새 지평을 여는 DETR 기반 알고리즘 D-FINE은 기존 Transformer 기반 객체 탐지 모델(DETR 계열)들이 겪던 경계 상자 회귀와 느린 수렴 문제를 해결하고자 개발된 최신 알고리즘입니다. 이 글에서는 D-FINE의 핵심 메커니즘인 FDR (Fine-grained Distribution Refinement)과 GO-LSD (Global Optimal Localization Self-Distillation)을 중심으로, 그 구조와 기술적 기여, 성능 비교, 그리고 YOLOv12와의 차별성을 자세히 분석합니다.1. D-FINE의 등장 배경과 문제의식DETR(Detection Transformer)은 객체 탐지에서 앵커와 NMS를 제거한 획기적인 모델로 각광받았으나, 실전 적용에는 몇 가지 약점이 있었습니다. 대표적으로:수렴 속도가 매.. 2025. 5. 6.
PyTorch Transforms v2로 구현하는 컴퓨터 비전 이미지 증강 딥러닝에서 이미지 증강이 중요한 이유컴퓨터 비전에서는 이미지 증강(Image Augmentation)이 딥러닝 모델의 일반화 성능을 향상시키는 데 매우 중요합니다. 라벨을 보존하면서 입력 이미지에 다양한 변형을 가함으로써, 학습 데이터의 다양성을 인위적으로 확장하고 과적합(overfitting)을 줄이며, 모델의 견고함(robustness)을 높일 수 있습니다.특히 계층적 특성을 학습하는 CNN(합성곱 신경망)이나 공간 정보를 이용하는 Vision Transformer(ViT) 모델에서는 입력의 다양성이 모델이 더 일반적인 특성을 학습하도록 유도합니다. 이는 정보 이론 관점에서 출력 예측에 유의미한 특성과의 상호정보(Mutual Information)를 증대시키고, 노이즈를 제거하는 효과와도 같습니다.주.. 2025. 5. 1.
컴퓨터 비전에서 준지도학습(Semi-Supervised Learning) 소개 및 최신 알고리즘 비교 분석 준지도학습(Semi-Supervised Learning) 소개준지도학습(Semi-Supervised Learning)은 적은 수의 라벨링된 데이터와 대량의 비라벨 데이터를 활용하여 학습하는 딥러닝 기법입니다. 전통적인 감독학습(Supervised Learning)은 라벨이 있는 데이터만을 학습에 사용하지만, 라벨링된 데이터는 얻기 어렵고 시간이 많이 소요되는 경우가 많습니다. 반면, 준지도학습은 비라벨 데이터를 활용하여 학습 성능을 개선하고, 실제 환경에서 더 적은 라벨링 작업으로 더 나은 성능을 달성할 수 있습니다. 이러한 준지도학습 기법은 특히 이미지 분류, 객체 검출, 영상 분석 등과 같은 컴퓨터 비전 분야에서 큰 장점을 가집니다. 대규모 이미지 데이터셋에서 라벨링된 데이터의 수가 부족한 경우, 비.. 2025. 4. 30.