Written by nodejs-style
on 2021-10-05

1Stage의 Object Detector - (3) YOLO v2, v3

YOLO v2

3가지 측면에서 model 향상

Better : 정확도 향상 Batch Normalization 적용 mAP 2% 상승 High resolution classifier YOLO v1은 224x224 이미지로 사전 학습된 VGG를 448x448 Detection 작업에 적용 YOLO v2는 448x448 이미지로 새롭게 finetuning mAP 4% 상승 Convolution with anchor boxes Fully Connected Layer를 제거 YOLO v1의 경우 grid cell의 bounding box의 좌표 값을 랜덤으로 초기화 후 학습 YOLO v2는 anchor box를 도입함 K means clusters on COCO datasets을 분석하여 5 개의 anchor box 선정 좌표 값 대신 offset 예측하는 문제가 단순하고 학습하기 쉬움(anchor box로부터 얼마나 가야되는지 width, height를 얼마나 바꿔야하는지) mAP 5% 상승 Fine-grained features 크기가 작은 feature map 은 low level 정보가 부족 Early feature map 은 작은 low level 정보 함축 Early feature map 을 late feature map 에 합쳐주는 passthrough layer 도입 26x26 feature map 을 분할 후 결합

passthrough layer Multi scale training

다양한 입력 이미지 사용 (320, 352, …, 608) multi scale feature map이 아닌 이미지를 이용한 것임

Faster : 속도 향상 Backbone model GoogLeNet에서 Darknet 19로 변경 Darknet 19 for detection

마지막 fully conected layer 제거 대신 3x3 convolution layer 로 대체 1x1 convolution layer 추가 (channel 수 125 (=5 x (5+20)))

Darknet19 구조

Stronger : 더 많은 class 예측 (80 -> 9000) Classification 데이터셋 (ImageNet), detection 데이터셋 (COCO) 함께 사용

Detection 데이터셋 : 일반적인 객체 class 로 분류 ex) 개

Classification 데이터셋 : 세부적인 객체 class 로 분류 ex) 불독 , 요크셔테리어

개, 요크셔테리어, 배타적 class 로 분류하면 안됨을 주장 WordTree 구성(계층적인 트리)

Ex. “요크셔테리어” = 물리적객체(최상위 노드)-동물-포유류-사냥개-테리어(최하위 노드)

ImageNet 데이터셋과 COCO 데이터셋 합쳐서 구성 : 9418 범주

ImageNet 데이터셋 COCO 데이터셋 = 4: 1

Detection 이미지 : classification loss 는 특정범주에 대해서만 loss 계산

ex. 개 이미지 : 물리적객체 동물 포유류 개 에 대해서 loss 계산

Classification 이미지 : classification loss 만 역전파 수행 IoU

COCO데이터셋과 ImageNet데이터셋을 이용한 WordTree

실험결과 Classification 데이터 셋에 대해서도 어느정도 Detection을 잘함(보지못한 데이터에 대해서도 어느정도 Detection을 수행) 또한 YOLO v1과 비교하여 성능이 많이 개선됨

YOLO v1과 성능 비교

YOLO v3 - Bacbone을 주로 개선

Darknet 53 (Backbone) Skip connection 적용 Max pooling x, convolution stride 2 사용 ResNet 101, ResNet 152 와 비슷한 성능 , FPS 높음

Multi scale Feature maps 서로 다른 3 개의 scale 을 사용 (52x52, 26x26, 13x13) Feature pyramid network 사용함으로써 High level 의 fine grained 정보와 low level 의 semantic 정보를 얻음

Darknet 53의 구조와 성능비교

이 후 YOLO의 개선사항 요약

YOLO v4 : 최신 딥러닝 기술 사용 (BOF : Bag of Freebies, BOS: Bag of Specials)

YOLO v5: 크기별로 모델 구성 (Small, Medium, Large, Xlarge)

내용 참조

네이버 부스트 캠프

from http://14blacktea.tistory.com/140 by ccl(A) rewrite - 2021-10-05 03:01:06

Top