[인공지능] 5-3 딥러닝

[인공지능] 5-3 딥러닝

딥러닝

다수의 층을 갖는 신경망 구조 사용

복잡한 구조의 신경망을 학습시키기 위해 많은 데이터와 컴퓨팅 자원 필요

기존 기계학습 보다 뛰어난 성능

일반 신경망 : 소수의 은닉층 포함 - 학습이 잘 안됨

특징 추출한 특징 벡터를 신경망 학습의 입력으로 사용

딥러닝 신경망 : 다수의 은닉층 포함

특징 추출과 신경망 학습을 함께 수행함

기울기 소멸 문제

은닉층이 많은 다층 퍼셉트론에서 출력층에서 아래 층으로 갈수록 전달되는 오차가 크게 줄어들어 학습이 되지 않는 현상

기울기 소멸 문제 완화

시그모이드나 쌍곡 탄젠트 대신 ReLU함수 사용

ReLU함수 사용과 함수 근사

함수를 부분적인 평면 타일들로 근사하는 형태

출력이 0 이상인 것들에 의해 계산되는 결과

가중치 초기화

신경망의 성능에 큰 영향을 주는 요소

보통 가중치의 초기값으로 0에 가까운 무작위 값 사용

개선된 가중치 초기화 방법

각 노드의 입력 노드 개수 ni 와 출력 노드 개수 ni+1 를 사용하는 방법

1. 균등 분포 초기화

2. 제이비어(Xavier) 초기화

3. 허(He) 초기화

과적합

모델이 학습 데이터에 지나치게 맞추어진 상태

데이터에는 잡음이나 오류가 포함 - 학습되지 않는 데이터에 대해 성능 저하

과적합 완화 기법

1. 규제화

오차 함수를 오차항과 모델 복잡도항으로 정의한다.

- 모델이 복잡해지면 과적합이 될 수 있으므로, 모델 복잡도를 벌점 항으로 추가한다.

2. 드롭아웃 기법

학습할 때 일정확률로 노드를 무작위로 선택하여, 선택된 노드의 앞뒤로 연결된 가중치 선은 없는 것으로 간주한다.

미니배치 나 학습주기 마다 드롭아웃을 하여 새롭게 학습한다.

나 마다 드롭아웃을 하여 새롭게 학습한다. 추론 할 때는 드롭아웃을 하지 않고 전체 학습된 신경망을 사용하여 출력 계산

학습주기: 전체 데이터에 대해서 신경망 모델을 한번의 학습과정을 완료하는 것

배치 : 신경망의 가중치를 한번 수정할 때 사용되는 데이터

3. 배치 정규화

신경망의 각 층에서 미니배치 B의 각 데이터에 가중치 연산을 적용한 결과인 xi의 분포를 정규화하는 것

가중치 학습 기법

1. 경사 하강법 : 반대방향 벡터를 더해줌

2. 모멘텀 사용 경사 하강법 : 현재 위치에서 그레디언트를 계산

3. NAG : 모멘텀으로 이동한 곳에서 그레디언트 계산

4. Adagrad : 가중치별로 다른 학습율 사용

5. Adadelta : Adagrad의 확장, 과거 그레디언트의 영향을 줄이면서 그레디언트 제곱합 계산

6. RMSprop : 가중치별로 다른 학습율 사용, 결합된 그레디언트 제곱합의 제곱근을 학습율로 사용

7. ADAM : 가중치별로 다른 학습율 사용, 그레디언트의 1차, 2차 모멘텀 사용

Quiz

일반 신경망인 다층 퍼셉트론에서 은닉층의 개수는 2~3개 정도로 작다. (O)

일반 신경망에서 특징 추출을 별도로 할 경우 개발자가 이를 처리해줘야 한다. (O)

딥러닝 신경망에서는 데이터에 대한 특징 추출 방법이 학습을 통해서 결정될 수 있다. (O)

기울기 소멸 문제는 계단 모양 활성 함수를 사용하여 완화시킬 수 있다. (X) -> ReLU함수를 통해 완화

ReLU함수의 출력값은 0이 될 수 없다. (X)

ReLU활성함수를 사용할 때, 미분값이 1인 부분이 있다. (O)

과적합 상태이면 테스트 데이터에 대한 성능이 학습 데이터에 대한 성능 보다 좋다. (X)

오차함수를 오차항과 모델 복잡도항으로 구성함으로써 과적합을 완화시킬 수 있다. (O)

학습할 때 일정 확률로 노드들을 무작위로 선택하여 노드에 대한 연결선이 없는 것처럼 배제하는 드롭아웃은 과적합 해소에 도움이 된다. (O)

미니배치 단위로 가중치를 갱긴하는 학습을 하면 과적합을 완화시킬 수 있다. (O)

딥러닝 신경망의 학습 알고리즘은 기본적으로 경사 하강법에 기반한다. (O)

모멘텀 사용 경사 하강법에서는 직전 시점의 가중치 갱신 정보를 일부 활용하여 가중치를 갱신한다. (O)

Adadelta 알고리즘은 가중치별로 학습율을 다르게 적용될 수 있도록 한다. (O)

현재 알려진 가중치 학습 기법 중 ADAM이 가장 우수한 성능이다. (X)

from http://juyami.tistory.com/36 by ccl(A) rewrite - 2021-12-11 19:01:18