1. 두 개념의 관계: KL Divergence
두 개념을 연결하는 핵심 고리는 쿨백-라이블러 발산 (Kullback-Leibler Divergence, $D_{KL}$)입니다. $D_{KL}$은 두 분포 $P$와 $Q$가 얼마나 다른지를 측정하는 '거리'와 유사한 개념입니다.
이들의 관계는 다음의 핵심 공식으로 표현됩니다.
$$H(P, Q) = H(P) + D_{KL}(P || Q)$$
이 공식을 풀어서 해석하면 다음과 같습니다.
- $H(P, Q)$ (교차 엔트로피): 모델($Q$)을 사용해 실제($P$)를 설명하는 데 드는 총 비용(Loss).
- $H(P)$ (정보 엔트로피): 실제($P$)가 본질적으로 가진 불확실성. (이론적인 최소 비용)
- $D_{KL}(P || Q)$ (KL 발산): 모델($Q$)이 실제($P$)와 달라서 발생하는 추가 비용 (Penalty).
2. 언어 모델(LM)에서의 적용
이제 이 관계를 언어 모델 학습에 적용해 보겠습니다.
- $P$ (실제 분포): 정답 데이터의 분포입니다.
- 예: "The cat sat on the ___" 다음 단어는 "mat"입니다. $P$는 "mat"일 확률이 1이고 나머지 모든 단어일 확률이 0인 분포(원-핫 벡터)입니다.
- $Q$ (모델의 예측 분포): 언어 모델이 출력한 다음 단어의 확률 분포입니다.
- 예: $Q(\text{"mat"})=0.7$, $Q(\text{"chair"})=0.2$, $Q(\text{"floor"})=0.1$ ...
- $H(P)$ (정보 엔트로피): $P$는 정답이 정해진(확률 1) 분포이므로, 불확실성이 0입니다. 즉, $H(P) = 0$ 입니다.
- $H(P, Q)$ (교차 엔트로피): 모델의 손실(Loss) 함수입니다.
- 위의 관계식에 $H(P)=0$을 대입하면, $H(P, Q) = 0 + D_{KL}(P || Q) = D_{KL}(P || Q)$가 됩니다.
- 즉, 지도 학습(Supervised Learning)에서 교차 엔트로피를 손실 함수로 사용해 최소화하는 것은, 모델의 예측($Q$)과 실제 정답($P$) 간의 KL Divergence를 최소화하는 것과 수학적으로 동일합니다.
3. 요약
- 정보 엔트로피 ($H(P)$)는 데이터 자체가 가진 '최적의 목표치' (이론상 도달 가능한 가장 낮은 불확실성)입니다.
- 교차 엔트로피 ($H(P, Q)$)는 '모델($Q$)의 현재 성능' (모델이 데이터를 설명하는 데 사용하는 실제 비트 수)입니다.
- KL Divergence ($D_{KL}$)는 '모델의 개선 여지' (목표치와 현재 성능 사이의 차이)입니다.
따라서 언어 모델이 교차 엔트로피를 손실 함수로 사용하여 학습한다는 것은, 정보 엔트로피라는 이론적 한계에 최대한 가까워지도록 모델의 예측($Q$)과 실제($P$) 사이의 차이($D_{KL}$)를 줄여나가는 과정이라고 할 수 있습니다.
'정보 이론 > 교차 엔트로피' 카테고리의 다른 글
| 쿨백-라이블러(Kullback-Leibler) 발산 이해하기 (예: 찌그러진 동전) (0) | 2026.02.04 |
|---|---|
| 정보 엔트로피, 교차 엔트로피, KL 발산 개념의 탄생과 발전 (0) | 2026.02.04 |