데이터 반출 없는 다 기관 협업 인공지능 학습 인프라

정보 이론/교차 엔트로피

정보 엔트로피, 교차 엔트로피, KL 발산 개념의 탄생과 발전

FedTensor 2026. 2. 4. 11:41

두 개념의 탄생과 발전은 통신 공학에서 시작되어 통계학을 거쳐 현재의 머신러닝으로 이어지는 흥미로운 역사를 가지고 있습니다.

 

물리학에서 정의된 엔트로피가 '무질서도'를 측정했다면, 정보이론에서의 역사는 이를 '불확실성'과 '정보량'으로 정량화하며 시작되었습니다.

1. 1948년: 정보 엔트로피의 탄생 (Claude Shannon)

정보 엔트로피는 벨 연구소의 클로드 섀넌(Claude Shannon)이 그의 기념비적인 논문 "A Mathematical Theory of Communication"에서 처음 제안했습니다.

  • 배경: 섀넌은 통신 채널을 통해 메시지를 전달할 때, 데이터를 얼마나 효율적으로 압축할 수 있는지(이론적 한계)를 연구하고 있었습니다.
  • 핵심 기여: 그는 메시지가 가질 수 있는 정보의 양을 확률적으로 정의했습니다. 특정 사건이 일어날 확률이 낮을수록 그 사건이 발생했을 때 얻는 정보량(Surprise)은 크다는 원리에 기반하여 아래 식을 도출했습니다.$$H(P) = -\sum_{i} P(x_i) \log P(x_i)$$
  • 물리학과의 연결: 섀넌은 이 식의 형태가 통계역학의 볼츠만 엔트로피와 유사하다는 것을 알았습니다. 전해지는 일화에 따르면, 존 폰 노이만(John von Neumann)이 섀넌에게 "사람들이 엔트로피가 무엇인지 정확히 모르기 때문에, 이 이름을 쓰면 논쟁에서 항상 이길 수 있을 것"이라며 '엔트로피'라는 이름을 권했다고 합니다.

2. 1951년: KL Divergence의 도입 (Kullback & Leibler)

섀넌의 엔트로피가 하나의 분포 내 불확실성을 측정했다면, 두 분포 사이의 관계를 측정하려는 시도는 솔로몬 컬백(Solomon Kullback)과 리처드 라이블러(Richard Leibler)에 의해 이루어졌습니다.

  • 배경: 이들은 통신 공학자가 아닌 통계학자였으며, 당시 NSA(미 국가안보국)에서 암호 해독 업무에 종사하고 있었습니다.
  • 핵심 기여: 1951년 논문 "On Information and Sufficiency"에서 두 확률분포 $P$$Q$가 얼마나 다른지를 측정하는 '지시 발산(Directed Divergence)'을 제안했습니다. 이것이 오늘날의 KL Divergence입니다.$$D_{KL}(P \| Q) = \sum_{i} P(x_i) \log \frac{P(x_i)}{Q(x_i)}$$
  • 목적: 원래의 목적은 통계적 추론에서 '가설 $Q$가 실제 데이터 $P$를 얼마나 잘 설명하는가' 또는 '샘플 데이터가 모집단에 대해 얼마나 충분한 정보를 주는가'를 정량화하는 것이었습니다.

3. 교차 엔트로피(Cross-Entropy)의 진화와 ML 도입

교차 엔트로피는 독립적인 하나의 발명이라기보다 섀넌의 정보이론에서 '비효율적인 코딩'을 설명하는 과정에서 자연스럽게 파생된 개념입니다.

초기 (코딩 이론)

섀넌의 코딩 이론에서, 실제 분포 $P$를 따르는 메시지를 잘못된 분포 $Q$를 기반으로 설계된 코드로 전송할 때 발생하는 평균 비트 수로 정의되었습니다.

$$H(P, Q) = -\sum_{i} P(x_i) \log Q(x_i)$$

현대 (머신러닝과 딥러닝)

교차 엔트로피가 인공 신경망의 손실 함수로 널리 쓰이게 된 결정적인 계기는 최대 우도 추정(Maximum Likelihood Estimation, MLE)과의 결합입니다.

  1. 로지스틱 회귀와 신경망: 1980년대 백프로파게이션(Backpropagation)이 재발견되면서, 기존의 평균 제곱 오차(MSE)가 분류 문제에서 학습 속도가 느려지는 현상(Saturating Gradient)을 발견했습니다.
  2. 로그 손실(Log Loss): 통계학의 MLE를 신경망에 적용하면서, 예측 확률 분포 $Q$가 정답 분포 $P$에 가까워지도록 로그 가능도를 최대화하는 과정이 결국 교차 엔트로피를 최소화하는 것과 수학적으로 동일함이 정립되었습니다.
  3. 대중화: 2010년대 딥러닝 붐이 일면서, 분류 문제(Softmax)에서는 교차 엔트로피가 사실상의 표준(De-facto standard) 손실 함수로 자리 잡게 되었습니다.

4. 요약: 역사의 흐름

시대 주역 핵심 개념 분야 주요 관점
1948년 Claude Shannon 정보 엔트로피 통신 공학 데이터 압축의 한계
1951년 Kullback & Leibler KL Divergence 통계학 두 분포 간의 정보 차이 측정
현대 AI 연구자들 교차 엔트로피 머신러닝 모델 예측과 실제 정답의 오차 계산

 

두 개념의 역사는 결국 "어떻게 하면 불확실한 정보를 가장 정확하고 효율적으로 정량화할 것인가?"라는 질문에 답하기 위한 통신공학자와 통계학자들의 협업 결과물이라고 볼 수 있습니다.