1. Introduction¶
You Only Look Once : 전체 이미지를 보는 횟수가 1회¶
Unified : Classification 과 Localization 이 동시에 일어남¶
Real-Time Object Detection : 속도 개선, 실시간¶
(1) Object Detection¶
1. Object Classification¶
: 이미지 내 single object의 Object class를 정의, output값은 class probability
2. Object Localization¶
: 이미지 내 single object의 위치를 포함하는 bounding box를 그리는 작업,
output 값은 ( x, y, w, h)
*(x,y): boundingbox의 center 좌표, (w,h): boundingbox의 width, height
3. Object Detection¶
: 이미지 내 여러 개의 Object 마다 Object class을 정의하고 bounding box를
그리는 작업 output 값은 class probability + (x,y,w,h)
(2) One-Stage detector¶
: Localization과 Classification을 동시에 수행하여 결과를 얻는 방식,
이미지 내 모든 위치를 object의 잠재영역이라고 가정,
각 후보 영역에 대해 class 예측
-> 이미지를 grid로 분할 한 뒤, 각 grid cell 마다
Multi-Class Classification 과 BoundingBox Regression 진행
(2) YOLO 주요 특징¶
1. Object detection을 regression problem 으로 관점 전환¶
: boundingbox와 그와 연관된 class probability 에 대한 regression problem으로 관점 전환
-> object detection 을 위해 모델이 전체 이미지를 1번만 봄
기존의 모델들에서는 Object detection을 진행하기 위해 classifier를
이미지의 다양한 위치에서 evaluate 함
ex) DPM의 sliding window, R-CNN의 region proposal method
2. Unified 구조¶
: 1개의 신경망으로 classification, localization 동시에 진행
3. Real time 속도 개선¶
: DPM, RCNN 모델보다 속도 개선 (45fps)
다른 Realtime 시스템 모델들의 평균 속도 보다 2배 빠른 장점
*fast YOLO는 155fps 까지 속도 개선
4. 여러 도메인에서 object detection 가능¶
: object의 일반적인 범위의 representation 또한 학습 가능
-> 여러 도메인에서 object detection 가능
YOLO 모델을 일반적인 이미지에서 train 하고 예술 작품들에서 test를 진행했을 때
DPM, R-CNN 모델 보다 훨씬 성능이 뛰어남
2. Unified Detection¶
1. S x S grid로 input 이미지 분할¶
2. 각 grid cell은 B boundingbox, confidence score, conditional class 확률 예측¶
boundingbox에 대한 confidence scores = 박스가 객체를 포함할 신뢰도, 정확도
confidence = Pr(object) * IOU(truth, pred)
*Pr(object) = objec가 bbox 안에 있으면 1, 없으면 0
*IOU 는 합집합 넓이에 대한 교집합 넓이의 비,
-> IOU(truth, pred) = truthbox 와 pred box의 공통부분 면적 / truthbox + pred box 총 면적
1개의 grid cell에 여러 개의 boundingbox는 존재할 수 있지만 class probability는 1개 씩만 예측
3. class- specific confidence score를 박스마다 얻음¶
class-specific confidence score : box에서 특정 class 가 있을 확률,
객체에 맞는 박스가 얼마나 정확히 예측되었는지 나타냄
class-specific confidence score = class probability * 각 bbox의 confidence score
YOLO 모델은 Pascal VOC data에서 7x7 grid, B=2, C=20 인 조건에서 학습 진행¶
-> 7 x 7 x (5x2+20) = 7 x 7 x 30 tensor
3. Network Design - GoogLe Net 에 착안해 개발한 모델¶
- 이미지의 특징을 추출하는 24개의 conv layer + 결과 확률을 예측하는 2개의 fc layer
*20 conv layer : pretrained with 1000- class Image Net (input image : 224 x 224)
4 conv layer + 2 fc layer : fine tuned with Pascal VOC data
- 중간에 1 x 1 reduction layer로 연산량 감소
- YOLO network의 최종 output 은 7 x 7 x 30 tensor 형태의 예측
4. Experiment¶
5. Limitation¶
1. 작은 물체에 대해 탐지 성능 낮음¶
: object 가 크면 boundingbox 사이의 IOU 값의 차이가 커져서
적절한 predictor를 선택할 수 있지만
object 가 작으면 boundingbox 사이의 IOU 값의 차이가 작아서
근소한 차이로 predictor가 결정됨