Cross Entropy & KL divergence

2020. 2. 4. 18:22

Cross Entropy

CLassification에서 현재 상태를 잘 측정 할 수있는게 Cross Entropy다

Sigmoid Relu 등 여러가지 activation function을 추가 했을때

가장 적합한 loss 표현 식 또한 cross entropy다

즉 확률적인 입장에서 말한 것이다

정보이론에선 확률이 낮을수록 좋은 정보인데

예를 들어 저녁에 해가 진다 등 100퍼센트인 정보는 쓸모 없는 것이다

이것을 놀람의 정도로 말하는 사람도 있는데 그 이유는 확률이 낮은 일일수록 놀라기 때문이다

0 <= p <= 1

방금의 정보이론적 측면을 표현하고자 한 것이 -log(x) (x<1)이다

확률이 1에 가까워지면 정보는 0에 가까워 진다
확률이 낮아질수록 정보는 기하급수적으로 커지게 된다

Expected Value

흔히 주사위를 던져서 기대값을 계산할때 해당 눈이 나올 확률에 해당 값을 곱하게 된다

이걸 일반화하게 되면 대상의 값과 확률의 곱 의 합이 된다

정보의 평균값이 즉 엔트로피가 되는데

randomness가 커질수록 엔트로피가 커진다

uniform하게 나오는게 가장 예측하기 어렵고 엔트로피가 높고
정보량 또한 많다

반대의 경우엔 엔트로피가 낮아지고 정보의 양이 적다

즉 엔트로피는 확률 분포의 정보량이라고 할수 있다

KL divergence

두 확률 분포가 얼마나 다른지 계산하기 위해서

먼저 x에 대해서 P하고 Q하고 비를 구한다

이때 구하고자 하는 대상을 분모로 보낸다

그리고 -log(x)를 씌운다

0에 가까운 값이 나온다면 유사도가 높은것이고 반대라면 유사도가 낮은것이다

자기 자신의 엔트로피는 제거한다 (어짜피 고정된 값이다)

KL divergence와 cross entropy

KL을 구할때 자기 자신의 엔트로피를 제거함으로써 형태를 비교하면 같아 보이고

실제로 그래프로 확인을 하더라고 유사하게 나온다

허나 제거한 값때문에 조금의 오차는 있고

그렇다 해도 전체적인 경향성은 비슷한 것이다

'Deep Learning' 카테고리의 다른 글

Histogram Of Gradients(HOG) 1 (0)	2020.04.28
Polynomial Regression (0)	2020.02.04
Linear Regression (2) (0)	2020.02.03
(확률) MLE & MAP (0)	2020.02.02
Gradient Descent (2) (0)	2020.02.02

갯벌그랩