Do it! 딥러닝교과서 내용을 공부하며 정리한 내용입니다.
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9791163032991
내부 공변량 (Internal covariate shift)
공변량 (covariate) : 독립변수는 통계적 문맥에 따라서 다르게 기술될 수 있다. 공변량은 그 중 하나의 용어이다. wikipedia에서는 아래와 같이 정의한다.
Depending on the context, an independent variable is sometimes called a "predictor variable", regressor, covariate, "manipulated variable", "explanatory variable", exposure variable (see reliability theory), "risk factor" (see medical statistics), "feature" (in machine learning and pattern recognition) or "input variable".[13][14] In econometrics, the term "control variable" is usually used instead of "covariate"
딥러닝에 사용되는 배치 데이터가 왜곡되는 현상을 Internal covariate shift라고 한다. 데이터의 분포가 은닉층을 지나면서 초기의 데이터가 가지는 통계적 특성의 변화폭이 점점 커지게 되고 은닉층이 많아질 수록 shift폭이 커지게 된다.
초기 입력 데이터의 정규화가 수행되더라도 은닉층을 지나면서 특정 데이터만 강화되어 학습 속도가 낮아지고 특정 은닉층이 결과에 대부분의 영향을 미치게되는 문제를 발생시킨다.
배치 정규화
배치 정규화는 미니배치에 대해서 모델의 계층 형태로 데이터를 정규화 한다. 즉 은닉 계층의 갯수만큼 정규화가 수행된다. 차원별로 평균과 분선을 구해서 표준 가우시안 분포로 정규화하여 내부 공변량의 변화를 작게 한다.
하지만 데이터를 표준 가우시안 분포로 정규화 하면 모델이 표현하려던 비선형성이 사라지는 문제가 있다. 활성함수는 모델의 비선형성을 위해 필요한 부분이나 정규화 과정으로 데이터가 활성함수의 선형영역에 집중되어 문제가 발생한다.
활성함수가 ReLU인 경우에는 ReLU함수의 음수에 매핑되는 절반의 데이터들이 사라지게되어 정상적으로 학습이 수행되지 않는다.
따라서 배치정규화를 수행한 후 데이터를 원래 데이터의 평균(베타)과 표준편차(감마)값을 이용하여 원래 데이터 분포로 복구한다.
배치 정규화를 수행하면,
- 내부 공변량 변화가 최소화 되어 역전파의 흐름이 원활해져서 학습이 안정적으로 진행된다.
- 그라디언트의 변화를 제약하여 목적함수를 부드럽게 만들어주어 학습 성능이 향상된다.
참고자료
'인공지능' 카테고리의 다른 글
On Device AI: 디바이스 내 인공지능에 대한 이해 (0) | 2024.03.16 |
---|---|
다국어 지원 딥러닝 모델 (1) | 2024.03.16 |
ChatGPT에게 잘 질문하기 (Template) (0) | 2024.03.08 |
ChatGPT에게 잘 질문하기 (Prompt 엔지니어링) (0) | 2024.03.06 |
Polynomial Regression (scikit learn) (0) | 2022.08.02 |