정보(Information)란 무엇이며, 어떻게 그 양을 측정할 수 있을까요? 정보 이론(Information Theory)은 이러한 질문에 답을 제시하며, '정보량'과 '엔트로피'는 그 핵심 개념입니다. 이 두 개념은 데이터 압축부터 머신러닝에 이르기까지 다양한 분야에서 활용됩니다.
1. 정보량 (Information Content): 놀라움의 정도
어떤 사건이 얼마나 많은 정보를 담고 있는지를 나타내는 척도를 정보량이라고 합니다. 정보량은 '해당 사건이 얼마나 놀라운가?'와 같습니다. 즉, 발생할 확률이 낮은 사건일수록 더 놀랍고, 따라서 더 많은 정보를 담고 있습니다.
예를 들어, "내일 해가 동쪽에서 뜰 것이다"라는 소식은 전혀 놀랍지 않으므로 정보량이 거의 0에 가깝습니다. 반면, "내일 서울에 운석이 떨어질 것이다"라는 소식은 매우 놀라우므로 정보량이 엄청나게 큽니다.
특정 사건 $x$의 정보량 $I(x)$는 다음과 같이 수학적으로 정의됩니다.
- $P(x)$: 사건 $x$가 발생할 확률
로그의 밑으로 2를 사용하는 이유는 정보량을 나타내는 기본 단위인 비트(bit)로 표현하기 위함입니다.
예시
- 공정한 동전 던지기:
- 앞면이 나올 확률 $P(\text{앞면})=0.5$
- 앞면이 나왔다는 사건의 정보량: $I(\text{앞면})=−\log_2(0.5)=1 \ \text{비트}$
- 이는 '앞면'과 '뒷면' 두 가지 경우를 구분하기 위해 1비트가 필요하다는 의미와 같습니다.
- 4가지 색깔의 공:
- 바구니에 빨강, 노랑, 파랑, 보라색 공이 각각 하나씩 들어있고, 각 공을 뽑을 확률이 $P(\text{색깔})=0.25$로 같다고 가정해 봅시다.
- 특정 색깔의 공을 뽑았다는 사건의 정보량: $I(\text{색깔})=−\log_2(0.25)=2 \ \text{비트}$
- 네 가지 색깔을 구분하기 위해서는 2비트가 필요합니다. (00, 01, 10, 11)
요약: 사건의 확률이 낮을수록(드물게 일어날수록) 정보량은 커집니다.

사건 발생 확률(P)에 따른 정보량(I)
2. 엔트로피 (Entropy): 불확실성의 평균
엔트로피는 어떤 정보원(예: 동전)에서 발생하는 모든 사건들의 정보량에 대한 기댓값(평균)입니다. 즉, 정보원이 평균적으로 얼마나 많은 정보량을 생성하는지를 나타내는 척도이며, 이는 곧 정보원의 불확실성을 의미합니다.
엔트로피가 높다는 것은 결과가 어떻게 나올지 예측하기 어렵다는 뜻이고, 엔트로피가 낮다는 것은 결과를 예측하기 쉽다는 뜻입니다.
이산 확률 변수 $X$의 엔트로피 $H(X)$는 다음과 같이 정의됩니다.
- $P(x_i)$: 각 사건 $x_i$가 발생할 확률

사건 발생 확률(P)에 따른 엔트로피 기여도
동전 던지기 예시로 본 엔트로피
동전의 앞면이 나올 확률을 $P$, 뒷면이 나올 확률을 $Q=1−P$라고 할 때, 이 동전의 엔트로피를 계산해 봅시다.
- 예시 1: 공정한 동전 (앞면 확률 50%)
- $P = 0.5, Q = 0.5$
- $H(X) = −[0.5×\log_2(0.5)+0.5×\log_2(0.5)] = 1$
- 결과를 전혀 예측할 수 없으므로 불확실성이 가장 높고, 엔트로피도 최댓값인 1이 됩니다.
- 예시 2: 약간 삐딱한 동전 (앞면 확률 75%)
- $P = 0.75, Q = 0.25$
- $H(X) = −[0.75×\log_2(0.75)+0.25×\log_2(0.25)] ≈ 0.811$
- 앞면이 더 자주 나오므로 첫 번째 예시보다 예측하기 쉬워졌습니다. 따라서 불확실성이 감소했고, 엔트로피 값도 더 작습니다.
- 예시 3: 양면이 모두 앞면인 동전 (앞면 확률 100%)
- $P = 1, Q = 0$
- $H(X) = −[1×\log_2(1)] = 0$
- 결과는 항상 '앞면'으로 정해져 있습니다. 불확실성이 전혀 없으므로 엔트로피는 0입니다.
요약: 엔트로피는 확률 분포가 균등할수록(모든 사건의 발생 확률이 비슷할수록) 최댓값을 가지며, 확률 분포가 특정 값에 치우칠수록 0에 가까워집니다.

동전 앞면 발생 확률(P)에 따른 엔트로피(H)
결론: 정보량 vs. 엔트로피
- 정보량은 개별 사건에 대한 놀라움의 정도, 즉 정보의 크기를 측정합니다.
- 엔트로피는 정보원 전체에 대한 불확실성의 평균적인 크기를 측정합니다.
이 두 개념을 통해 우리는 불확실성을 정량적으로 분석하고, 더 효율적으로 정보를 처리하고 압축하는 방법을 찾을 수 있습니다.
'정보 이론 > 정보량과 엔트로피' 카테고리의 다른 글
| ENT-04. 정보량과 엔트로피: 동전 던지기와 데이터 압축으로 이해하기 (0) | 2026.02.03 |
|---|---|
| ENT-02. 축구 경기로 쉽게 이해하는 정보량과 엔트로피 (0) | 2026.02.03 |
| ENT-01. 정보 이론의 핵심 개념: 정보량과 엔트로피 (0) | 2026.02.03 |