정보 엔트로피, 교차 엔트로피, KL 발산 개념의 탄생과 발전

정보 이론/교차 엔트로피

정보 엔트로피, 교차 엔트로피, KL 발산 개념의 탄생과 발전

FedTensor 2026. 2. 4. 11:41

두 개념의 탄생과 발전은 통신 공학에서 시작되어 통계학을 거쳐 현재의 머신러닝으로 이어지는 흥미로운 역사를 가지고 있습니다.

물리학에서 정의된 엔트로피가 '무질서도'를 측정했다면, 정보이론에서의 역사는 이를 '불확실성'과 '정보량'으로 정량화하며 시작되었습니다.

1. 1948년: 정보 엔트로피의 탄생 (Claude Shannon)

정보 엔트로피는 벨 연구소의 클로드 섀넌(Claude Shannon)이 그의 기념비적인 논문 "A Mathematical Theory of Communication"에서 처음 제안했습니다.

배경: 섀넌은 통신 채널을 통해 메시지를 전달할 때, 데이터를 얼마나 효율적으로 압축할 수 있는지(이론적 한계)를 연구하고 있었습니다.
핵심 기여: 그는 메시지가 가질 수 있는 정보의 양을 확률적으로 정의했습니다. 특정 사건이 일어날 확률이 낮을수록 그 사건이 발생했을 때 얻는 정보량(Surprise)은 크다는 원리에 기반하여 아래 식을 도출했습니다.$$H(P) = -\sum_{i} P(x_i) \log P(x_i)$$
물리학과의 연결: 섀넌은 이 식의 형태가 통계역학의 볼츠만 엔트로피와 유사하다는 것을 알았습니다. 전해지는 일화에 따르면, 존 폰 노이만(John von Neumann)이 섀넌에게 "사람들이 엔트로피가 무엇인지 정확히 모르기 때문에, 이 이름을 쓰면 논쟁에서 항상 이길 수 있을 것"이라며 '엔트로피'라는 이름을 권했다고 합니다.

2. 1951년: KL Divergence의 도입 (Kullback & Leibler)

섀넌의 엔트로피가 하나의 분포 내 불확실성을 측정했다면, 두 분포 사이의 관계를 측정하려는 시도는 솔로몬 컬백(Solomon Kullback)과 리처드 라이블러(Richard Leibler)에 의해 이루어졌습니다.

배경: 이들은 통신 공학자가 아닌 통계학자였으며, 당시 NSA(미 국가안보국)에서 암호 해독 업무에 종사하고 있었습니다.
핵심 기여: 1951년 논문 "On Information and Sufficiency"에서 두 확률분포 $P$와 $Q$가 얼마나 다른지를 측정하는 '지시 발산(Directed Divergence)'을 제안했습니다. 이것이 오늘날의 KL Divergence입니다.$$D_{KL}(P \| Q) = \sum_{i} P(x_i) \log \frac{P(x_i)}{Q(x_i)}$$
목적: 원래의 목적은 통계적 추론에서 '가설 $Q$가 실제 데이터 $P$를 얼마나 잘 설명하는가' 또는 '샘플 데이터가 모집단에 대해 얼마나 충분한 정보를 주는가'를 정량화하는 것이었습니다.

3. 교차 엔트로피(Cross-Entropy)의 진화와 ML 도입

교차 엔트로피는 독립적인 하나의 발명이라기보다 섀넌의 정보이론에서 '비효율적인 코딩'을 설명하는 과정에서 자연스럽게 파생된 개념입니다.

초기 (코딩 이론)

섀넌의 코딩 이론에서, 실제 분포 $P$를 따르는 메시지를 잘못된 분포 $Q$를 기반으로 설계된 코드로 전송할 때 발생하는 평균 비트 수로 정의되었습니다.

$$H(P, Q) = -\sum_{i} P(x_i) \log Q(x_i)$$

현대 (머신러닝과 딥러닝)

교차 엔트로피가 인공 신경망의 손실 함수로 널리 쓰이게 된 결정적인 계기는 최대 우도 추정(Maximum Likelihood Estimation, MLE)과의 결합입니다.

로지스틱 회귀와 신경망: 1980년대 백프로파게이션(Backpropagation)이 재발견되면서, 기존의 평균 제곱 오차(MSE)가 분류 문제에서 학습 속도가 느려지는 현상(Saturating Gradient)을 발견했습니다.
로그 손실(Log Loss): 통계학의 MLE를 신경망에 적용하면서, 예측 확률 분포 $Q$가 정답 분포 $P$에 가까워지도록 로그 가능도를 최대화하는 과정이 결국 교차 엔트로피를 최소화하는 것과 수학적으로 동일함이 정립되었습니다.
대중화: 2010년대 딥러닝 붐이 일면서, 분류 문제(Softmax)에서는 교차 엔트로피가 사실상의 표준(De-facto standard) 손실 함수로 자리 잡게 되었습니다.

4. 요약: 역사의 흐름

시대	주역	핵심 개념	분야	주요 관점
1948년	Claude Shannon	정보 엔트로피	통신 공학	데이터 압축의 한계
1951년	Kullback & Leibler	KL Divergence	통계학	두 분포 간의 정보 차이 측정
현대	AI 연구자들	교차 엔트로피	머신러닝	모델 예측과 실제 정답의 오차 계산

두 개념의 역사는 결국 "어떻게 하면 불확실한 정보를 가장 정확하고 효율적으로 정량화할 것인가?"라는 질문에 답하기 위한 통신공학자와 통계학자들의 협업 결과물이라고 볼 수 있습니다.

'정보 이론 > 교차 엔트로피' 카테고리의 다른 글

쿨백-라이블러(Kullback-Leibler) 발산 이해하기 (예: 찌그러진 동전) (0)	2026.02.04
정보 엔트로피와 교차 엔트로피의 관계 (0)	2026.02.04

현재글정보 엔트로피, 교차 엔트로피, KL 발산 개념의 탄생과 발전

페드텐서 FedTensor

데이터의 보호와 활용 - 천천히, 제대로

신경세포, 뇌가소성, 연합학습, 차분프라이버시, 프라이버시, 엔트로피, 푸아송분포, non-iid, kl발산, 개인정보보호, smpc, 트랜스포머, ECC, 비밀공유, 정보보호, 차등정보보호, 인공지능, 보안다자간계산, 이질적데이터, 안전한집계, 멱법칙, ecdlp, 타원곡선암호, 베이지안추론, 사이버보안, secagg+, 신경망, 이산로그문제, 데이터분석, 데이터이질성,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

페드텐서 FedTensor