두 개념의 탄생과 발전은 통신 공학에서 시작되어 통계학을 거쳐 현재의 머신러닝으로 이어지는 흥미로운 역사를 가지고 있습니다.
물리학에서 정의된 엔트로피가 '무질서도'를 측정했다면, 정보이론에서의 역사는 이를 '불확실성'과 '정보량'으로 정량화하며 시작되었습니다.
1. 1948년: 정보 엔트로피의 탄생 (Claude Shannon)
정보 엔트로피는 벨 연구소의 클로드 섀넌(Claude Shannon)이 그의 기념비적인 논문 "A Mathematical Theory of Communication"에서 처음 제안했습니다.
- 배경: 섀넌은 통신 채널을 통해 메시지를 전달할 때, 데이터를 얼마나 효율적으로 압축할 수 있는지(이론적 한계)를 연구하고 있었습니다.
- 핵심 기여: 그는 메시지가 가질 수 있는 정보의 양을 확률적으로 정의했습니다. 특정 사건이 일어날 확률이 낮을수록 그 사건이 발생했을 때 얻는 정보량(Surprise)은 크다는 원리에 기반하여 아래 식을 도출했습니다.$$H(P) = -\sum_{i} P(x_i) \log P(x_i)$$
- 물리학과의 연결: 섀넌은 이 식의 형태가 통계역학의 볼츠만 엔트로피와 유사하다는 것을 알았습니다. 전해지는 일화에 따르면, 존 폰 노이만(John von Neumann)이 섀넌에게 "사람들이 엔트로피가 무엇인지 정확히 모르기 때문에, 이 이름을 쓰면 논쟁에서 항상 이길 수 있을 것"이라며 '엔트로피'라는 이름을 권했다고 합니다.
2. 1951년: KL Divergence의 도입 (Kullback & Leibler)
섀넌의 엔트로피가 하나의 분포 내 불확실성을 측정했다면, 두 분포 사이의 관계를 측정하려는 시도는 솔로몬 컬백(Solomon Kullback)과 리처드 라이블러(Richard Leibler)에 의해 이루어졌습니다.
- 배경: 이들은 통신 공학자가 아닌 통계학자였으며, 당시 NSA(미 국가안보국)에서 암호 해독 업무에 종사하고 있었습니다.
- 핵심 기여: 1951년 논문 "On Information and Sufficiency"에서 두 확률분포 $P$와 $Q$가 얼마나 다른지를 측정하는 '지시 발산(Directed Divergence)'을 제안했습니다. 이것이 오늘날의 KL Divergence입니다.$$D_{KL}(P \| Q) = \sum_{i} P(x_i) \log \frac{P(x_i)}{Q(x_i)}$$
- 목적: 원래의 목적은 통계적 추론에서 '가설 $Q$가 실제 데이터 $P$를 얼마나 잘 설명하는가' 또는 '샘플 데이터가 모집단에 대해 얼마나 충분한 정보를 주는가'를 정량화하는 것이었습니다.
3. 교차 엔트로피(Cross-Entropy)의 진화와 ML 도입
교차 엔트로피는 독립적인 하나의 발명이라기보다 섀넌의 정보이론에서 '비효율적인 코딩'을 설명하는 과정에서 자연스럽게 파생된 개념입니다.
초기 (코딩 이론)
섀넌의 코딩 이론에서, 실제 분포 $P$를 따르는 메시지를 잘못된 분포 $Q$를 기반으로 설계된 코드로 전송할 때 발생하는 평균 비트 수로 정의되었습니다.
$$H(P, Q) = -\sum_{i} P(x_i) \log Q(x_i)$$
현대 (머신러닝과 딥러닝)
교차 엔트로피가 인공 신경망의 손실 함수로 널리 쓰이게 된 결정적인 계기는 최대 우도 추정(Maximum Likelihood Estimation, MLE)과의 결합입니다.
- 로지스틱 회귀와 신경망: 1980년대 백프로파게이션(Backpropagation)이 재발견되면서, 기존의 평균 제곱 오차(MSE)가 분류 문제에서 학습 속도가 느려지는 현상(Saturating Gradient)을 발견했습니다.
- 로그 손실(Log Loss): 통계학의 MLE를 신경망에 적용하면서, 예측 확률 분포 $Q$가 정답 분포 $P$에 가까워지도록 로그 가능도를 최대화하는 과정이 결국 교차 엔트로피를 최소화하는 것과 수학적으로 동일함이 정립되었습니다.
- 대중화: 2010년대 딥러닝 붐이 일면서, 분류 문제(Softmax)에서는 교차 엔트로피가 사실상의 표준(De-facto standard) 손실 함수로 자리 잡게 되었습니다.
4. 요약: 역사의 흐름
| 시대 | 주역 | 핵심 개념 | 분야 | 주요 관점 |
| 1948년 | Claude Shannon | 정보 엔트로피 | 통신 공학 | 데이터 압축의 한계 |
| 1951년 | Kullback & Leibler | KL Divergence | 통계학 | 두 분포 간의 정보 차이 측정 |
| 현대 | AI 연구자들 | 교차 엔트로피 | 머신러닝 | 모델 예측과 실제 정답의 오차 계산 |
두 개념의 역사는 결국 "어떻게 하면 불확실한 정보를 가장 정확하고 효율적으로 정량화할 것인가?"라는 질문에 답하기 위한 통신공학자와 통계학자들의 협업 결과물이라고 볼 수 있습니다.
'정보 이론 > 교차 엔트로피' 카테고리의 다른 글
| 쿨백-라이블러(Kullback-Leibler) 발산 이해하기 (예: 찌그러진 동전) (0) | 2026.02.04 |
|---|---|
| 정보 엔트로피와 교차 엔트로피의 관계 (0) | 2026.02.04 |