YOLO

YOLO 모델 논문리뷰¶

You Only Look Once : Unified, Real-Time Object Detection¶

1. Introduction¶

You Only Look Once : 전체 이미지를 보는 횟수가 1회¶

Unified : Classification 과 Localization 이 동시에 일어남¶

Real-Time Object Detection : 속도 개선, 실시간¶

(1) Object Detection¶

1. Object Classification¶

     : 이미지 내 single object의 Object class를 정의, output값은 class probability

2. Object Localization¶

      : 이미지 내 single object의 위치를 포함하는 bounding box를 그리는 작업, 
        output 값은 ( x, y, w, h)
        *(x,y): boundingbox의 center 좌표, (w,h): boundingbox의 width, height

3. Object Detection¶

       : 이미지 내 여러 개의 Object 마다 Object class을 정의하고 bounding box를 
         그리는 작업 output 값은 class probability + (x,y,w,h)

(2) One-Stage detector¶

    : Localization과 Classification을 동시에 수행하여 결과를 얻는 방식, 
      이미지 내 모든 위치를 object의 잠재영역이라고 가정,
      각 후보 영역에 대해 class 예측
      -> 이미지를 grid로 분할 한 뒤, 각 grid cell 마다
         Multi-Class Classification 과 BoundingBox Regression 진행

(2) YOLO 주요 특징¶

1. Object detection을 regression problem 으로 관점 전환¶

    : boundingbox와 그와 연관된 class probability 에 대한 regression problem으로 관점 전환
      -> object detection 을 위해 모델이 전체 이미지를 1번만 봄

      기존의 모델들에서는 Object detection을 진행하기 위해 classifier를 
      이미지의 다양한 위치에서 evaluate 함
      ex) DPM의 sliding window, R-CNN의 region proposal method

2. Unified 구조¶

    : 1개의 신경망으로 classification, localization 동시에 진행

3. Real time 속도 개선¶

    : DPM, RCNN 모델보다 속도 개선 (45fps) 
      다른 Realtime 시스템 모델들의 평균 속도 보다 2배 빠른 장점
    *fast YOLO는 155fps 까지 속도 개선

4. 여러 도메인에서 object detection 가능¶

    : object의 일반적인 범위의 representation 또한 학습 가능
      -> 여러 도메인에서 object detection 가능

     YOLO 모델을 일반적인 이미지에서 train 하고 예술 작품들에서 test를 진행했을 때 
     DPM, R-CNN 모델 보다 훨씬 성능이 뛰어남

2. Unified Detection¶

1. S x S grid로 input 이미지 분할¶

2. 각 grid cell은 B boundingbox, confidence score, conditional class 확률 예측¶

    boundingbox에 대한 confidence scores = 박스가 객체를 포함할 신뢰도, 정확도

    confidence = Pr(object) * IOU(truth, pred)

    *Pr(object) = objec가 bbox 안에 있으면 1, 없으면 0

    *IOU 는 합집합 넓이에 대한 교집합 넓이의 비,         
     -> IOU(truth, pred) = truthbox 와 pred box의 공통부분 면적 / truthbox + pred box 총 면적

    1개의 grid cell에 여러 개의 boundingbox는 존재할 수 있지만 class probability는 1개 씩만 예측

3. class- specific confidence score를 박스마다 얻음¶

    class-specific confidence score : box에서 특정 class 가 있을 확률,
    객체에 맞는 박스가 얼마나 정확히 예측되었는지 나타냄

    class-specific confidence score = class probability * 각 bbox의 confidence score

YOLO 모델은 Pascal VOC data에서 7x7 grid, B=2, C=20 인 조건에서 학습 진행¶

   -> 7 x 7 x (5x2+20) = 7 x 7 x 30 tensor

3. Network Design - GoogLe Net 에 착안해 개발한 모델¶

    - 이미지의 특징을 추출하는 24개의 conv layer + 결과 확률을 예측하는 2개의 fc layer

      *20 conv layer : pretrained with 1000- class Image Net (input image : 224 x 224)
       4 conv layer + 2 fc layer : fine tuned with Pascal VOC data

    - 중간에 1 x 1 reduction layer로 연산량 감소 

    - YOLO network의 최종 output 은 7 x 7 x 30 tensor 형태의 예측

4. Experiment¶

5. Limitation¶

1. 작은 물체에 대해 탐지 성능 낮음¶

   : object 가 크면 boundingbox 사이의 IOU 값의 차이가 커져서
     적절한 predictor를 선택할 수 있지만
     object 가 작으면 boundingbox 사이의 IOU 값의 차이가 작아서 
     근소한 차이로 predictor가 결정됨

Chriss Archive

YOLO 모델 논문 리뷰

YOLO 모델 논문리뷰¶

You Only Look Once : Unified, Real-Time Object Detection¶

1. Introduction¶

You Only Look Once : 전체 이미지를 보는 횟수가 1회¶

Unified : Classification 과 Localization 이 동시에 일어남¶

Real-Time Object Detection : 속도 개선, 실시간¶

(1) Object Detection¶

1. Object Classification¶

2. Object Localization¶

3. Object Detection¶

(2) One-Stage detector¶

(2) YOLO 주요 특징¶

1. Object detection을 regression problem 으로 관점 전환¶

2. Unified 구조¶

3. Real time 속도 개선¶

4. 여러 도메인에서 object detection 가능¶

2. Unified Detection¶

1. S x S grid로 input 이미지 분할¶

2. 각 grid cell은 B boundingbox, confidence score, conditional class 확률 예측¶

3. class- specific confidence score를 박스마다 얻음¶

YOLO 모델은 Pascal VOC data에서 7x7 grid, B=2, C=20 인 조건에서 학습 진행¶

3. Network Design - GoogLe Net 에 착안해 개발한 모델¶

4. Experiment¶

5. Limitation¶

1. 작은 물체에 대해 탐지 성능 낮음¶

2. 일반화된 지식과 다르게 object 비율이 달라지면 detection 성능이 낮아짐¶

출처 : https://arxiv.org/abs/1506.02640, https://youtu.be/O78V3kwBRBk, https://youtu.be/lxyCUfn_p4Q ¶

티스토리툴바

YOLO 모델 논문 리뷰

YOLO 모델 논문리뷰¶

You Only Look Once : Unified, Real-Time Object Detection¶

1. Introduction¶

You Only Look Once : 전체 이미지를 보는 횟수가 1회¶

Unified : Classification 과 Localization 이 동시에 일어남¶

Real-Time Object Detection : 속도 개선, 실시간¶

(1) Object Detection¶

1. Object Classification¶

2. Object Localization¶

3. Object Detection¶

(2) One-Stage detector¶

(2) YOLO 주요 특징¶

1. Object detection을 regression problem 으로 관점 전환¶

2. Unified 구조¶

3. Real time 속도 개선¶

4. 여러 도메인에서 object detection 가능¶

2. Unified Detection¶

1. S x S grid로 input 이미지 분할¶

2. 각 grid cell은 B boundingbox, confidence score, conditional class 확률 예측¶

3. class- specific confidence score를 박스마다 얻음¶

YOLO 모델은 Pascal VOC data에서 7x7 grid, B=2, C=20 인 조건에서 학습 진행¶

3. Network Design - GoogLe Net 에 착안해 개발한 모델¶

4. Experiment¶

5. Limitation¶

1. 작은 물체에 대해 탐지 성능 낮음¶

2. 일반화된 지식과 다르게 object 비율이 달라지면 detection 성능이 낮아짐¶

출처 : https://arxiv.org/abs/1506.02640, https://youtu.be/O78V3kwBRBk, https://youtu.be/lxyCUfn_p4Q¶

티스토리툴바

출처 : https://arxiv.org/abs/1506.02640, https://youtu.be/O78V3kwBRBk, https://youtu.be/lxyCUfn_p4Q ¶