Post

8-(1) YOLO(You Only Look Once) 모델의 주요 특징과 장점은 무엇인가요?

8-(1) YOLO(You Only Look Once) 모델의 주요 특징과 장점은 무엇인가요?

🟢 YOLO(You Only Look Once) 모델의 주요 특징과 장점


⚪ Object detection이란?

Object detection = Classification + Regression

⚪ Object detection의 3대장: Faster R-CNN, SSD 그리고 YOLO

특징Faster R-CNNSSDYOLO
핵심 철학2-Stage (두 단계 접근)
“신중하고 정확하게”
1-Stage (한 단계 접근)
“속도와 정확도의 균형”
1-Stage (한 단계 접근)
“인생은 한 방!”
동작 방식1. RPN: 객체 후보 영역 제안
2. Fast R-CNN: 분류 및 위치 보정
CNN 중간의 여러 피처맵에서
다양한 크기의 객체를 동시에 탐지
이미지를 Grid로 나누고
각 셀에서 위치와 클래스를 동시에 예측
장점매우 높은 정확도
• 작거나 겹친 객체 탐지에 강함
속도와 정확도의 훌륭한 균형
• 다양한 크기의 객체 탐지 성능 좋음
압도적으로 빠른 속도
• 실시간 영상 처리에 최적화
단점상대적으로 느린 속도
• 구조가 복잡하고 무거움
• Faster R-CNN보다 정확도 약간 낮음
• 아주 작은 객체 탐지는 여전히 어려움
상대적으로 낮은 정확도 (초기 버전)
• 작은 객체 탐지에 약함
대표 성능~73.2% mAP
~7 fps
(PASCAL VOC 2007)
~74.3% mAP
~59 fps
(PASCAL VOC 2007, SSD300)
~63.4% mAP
~45 fps
(PASCAL VOC 2007, YOLOv1)
주요 사용처• 의료 영상 분석⭐
• 위성 사진 판독
• 정확도가 최우선인 연구
• 대부분의 실용적인 앱
• 임베디드 시스템
• 적당한 성능과 속도가 모두 필요할 때
• 실시간 CCTV 감시
• 자율 주행
• 빠른 반응 속도가 생명일 때
출처 논문Ren, S., et al. (2015). Faster R-CNNLiu, W., et al. (2016). SSDRedmon, J., et al. (2016). YOLO
  • 약간의 Detection 실수는 괜찮지만, 실시간으로 끊김 없이 화면을 분석해야 한다면 YOLO를 사용.

  • YOLO는 v1, v2, v3를 넘어 Alexey Bochkovskiy의 YOLOv4, Ultralytics의 YOLOv5, 그리고 현재의 YOLOv8, v9, v10에 이르기까지 끊임없이 발전됨.

  • 많은 벤치마크에서 Faster R-CNN 계열의 정확도를 뛰어넘으면서도 속도는 수십 배 빠른 말도 안 되는 성능을 보여줌⭐

  • 특히 Ultralytics 같은 회사들이 YOLO를 PyTorch 기반으로 접근성이 매우 높아 fine tuning 등 적용이 매우 쉬움

  • 결론은 Object deatection에서 YOLO가 이미 압도적 대세❗


⚪ YOLO(You Only Look Once)

엄청나게 눈이 좋은 사람이 사진을 딱 한 번 슥 훑어보고, ‘저기 고양이 있고, 저쪽엔 개가 있네’ 라고 동시에 모든 걸 찾아내는 것

이전 모델들은 사진을 돋보기로 여기저기 수천 번씩 뜯어보면서 “여긴가? 아닌가?”를 반복

(1) 이미지를 grid로 나누기

이미지를 바둑판처럼 나눈다.

(2) 각 칸의 동시 예측 (Prediction)

각 칸이 동시에 ‘상자 위치’, ‘상자 신뢰도’, ‘객체 클래스’를 예측한다.

(3) 겹치는 예측들 정리하기 (Non-Maximum Suppression)

겹치는 상자들을 지우고 가장 좋은 예측만 남긴다.


🟢 예시 답안 (코드잇 제공)

  • YOLO(You Only Look Once) 모델은 실시간 객체 탐지를 위해 설계된 딥러닝 기반의 객체 인식 모델입니다. 기존 객체 탐지 방법들은 여러 단계로 구성되어 있어 속도가 느렸지만, YOLO는 한 번의 Forward Pass만으로 객체의 위치와 클래스를 동시에 예측할 수 있기 때문에 매우 빠르게 동작합니다.
  • YOLO의 주요 특징 중 하나는 그리드 기반 예측 방식입니다. 이미지 전체를 작은 그리드로 나누고, 각 그리드 셀에서 객체의 중심이 존재할 가능성을 예측하는 방식으로 동작합니다. 이를 통해 전체 이미지를 한 번에 분석하면서도 높은 연산 효율을 유지할 수 있습니다.
  • 또한, YOLO는 엔드투엔드 방식(end-to-end approach)을 사용하여 모델이 이미지에서 직접 바운딩 박스와 클래스를 예측합니다. 이를 통해 속도가 빠르고 최적화가 용이하며, 실시간 객체 탐지가 필요한 자율주행, 보안 감시, 스포츠 분석 등의 분야에서 널리 활용되고 있습니다.
  • YOLO의 가장 큰 장점은 빠른 속도와 높은 효율성입니다. 다른 객체 탐지 모델(R-CNN 계열)과 비교했을 때, YOLO는 몇 배 이상 빠르게 동작하면서도 상대적으로 높은 정확도를 유지합니다. 특히, 단일 네트워크 구조로 동작하기 때문에 실시간 응용이 가능하다는 점에서 강력한 장점을 가지고 있습니다.
  • 그러나 YOLO는 상대적으로 작은 객체를 탐지하는 데 어려움을 겪을 수 있으며, 정확도를 높이기 위해 최신 버전(YOLOv3, YOLOv4, YOLOv5 등)에서 개선이 이루어지고 있습니다. 최신 버전에서는 앵커 박스(anchor box) 활용, 더 깊어진 네트워크 구조, 고해상도 입력 지원 등의 기술을 통해 정확도를 향상시키고 있습니다.
This post is licensed under CC BY 4.0 by the author.

© 2025 Soohyun Jeon ⭐

🌱 Mostly to remember, sometimes to understand.