오늘 밤, 흥미로운 두 축구 경기가 동시에 열립니다.
- 경기 A: 브라질 (승리 확률 0.5) vs. 아르헨티나 (승리 확률 0.5)
- 경기 B: 브라질 (승리 확률 0.9) vs. 태국 (승리 확률 0.1)
어떤 경기가 더 예측하기 어려울까요? 그리고 어떤 경기 결과가 우리를 더 놀라게 할까요?
정보 이론은 '불확실성'과 '놀라움'이라는 직관적인 개념을 엔트로피(Entropy)와 정보량(Information Content)이라는 수학적 척도로 명쾌하게 설명합니다. 위 두 경기를 통해 이 개념들을 쉽게 이해해 보겠습니다.
1. 직관적으로 살펴보기
놀람의 정도: "결과를 듣고 보니"
경기가 끝난 후 결과를 들었을 때 얼마나 놀라울지 생각해 봅시다.
- 경기 A (브라질 vs. 아르헨티나): 팽팽한 라이벌 전이라 브라질이 이기든, 아르헨티나가 이기든 "그럴 수 있지"라고 생각할 가능성이 큽니다.
- 놀라움이 크지 않습니다.
- 경기 B (브라질 vs. 태국): 모두가 브라질의 승리를 예상합니다.
- 브라질이 이기면: "예상대로군." (놀라움이 거의 없음)
- 태국이 이기면: "세상에, 말도 안 돼!" (엄청난 놀라움)
이 '놀람의 정도'가 바로 정보 이론에서 말하는 정보량의 직관적 의미입니다. 즉, 발생 확률이 낮은 사건의 결과일수록 더 많은 정보량을 가집니다.
정보량(놀람의 정도) 비교:
예측의 어려움: "경기를 보기 전에"
이번에는 경기가 시작되기 전, 승부를 예측하는 것이 얼마나 어려운지 생각해 봅시다.
- 경기 A (브라질 vs. 아르헨티나): 두 팀의 전력이 비슷해서 누가 이길지 전혀 감을 잡을 수 없습니다. 예측의 불확실성이 매우 높습니다.
- 경기 B (브라질 vs. 태국): 대부분의 사람이 브라질의 승리를 점칠 것입니다. 예측이 비교적 쉽고, 불확실성이 낮습니다.
이 '예측의 어려움', 즉 '불확실성의 정도'가 바로 엔트로피의 직관적 의미입니다.
엔트로피(예측 불확실성) 비교:
2. 정보 이론으로 정량화하기
이제 직관적인 개념을 수학 공식으로 표현해 보겠습니다.
정보량 (Information Content)
어떤 사건 $x$가 발생했다는 것을 알게 되었을 때 얻는 정보의 양이며, 다음과 같이 계산합니다. 정보량의 단위는 비트(bit)입니다.
- $P(x)$: 사건 $x$가 발생할 확률
- 확률($P(x)$)이 낮을수록 정보량($I(x)$)은 커집니다.
각 경기 결과의 정보량 계산:
- 경기 A
- $I(\text{브라질 승리}) = −\log_2(0.5) = 1 \ \text{bit}$
- $I(\text{아르헨티나 승리}) = −\log_2(0.5) = 1 \ \text{bit}$
- 경기 B
- $I(\text{브라질 승리}) = −\log_2(0.9) ≈ 0.152 \ \text{bit}$
- $I(\text{태국 승리}) = −\log_2(0.1) ≈ 3.322 \ \text{bit}$
계산 결과, 태국이 승리하는 사건의 정보량이 압도적으로 높은 것을 확인할 수 있습니다. 이는 우리의 직관과 일치합니다.
엔트로피 (Entropy)
어떤 확률적 사건(예: 축구 경기)에 대해 얻을 수 있는 정보량의 기댓값(평균)입니다. 즉, 그 사건이 얼마나 불확실한지를 나타내는 척도입니다.
- 모든 가능한 사건의 (확률 × 정보량)을 더한 값입니다.
- 확률 분포가 균등할수록(모든 사건의 확률이 비슷할수록) 엔트로피는 최댓값을 가집니다.
각 경기의 엔트로피 계산:
- 경기 A
- H(경기A)=[0.5×I(브라질)]+[0.5×I(아르헨티나)]=(0.5×1)+(0.5×1)=1 bit
- 경기 B
- H(경기B)=[0.9×I(브라질)]+[0.1×I(태국)]=(0.9×0.152)+(0.1×3.322)≈0.137+0.332=0.469 bit
계산 결과, 두 팀의 승리 확률이 0.5로 동일했던 경기 A의 엔트로피가 더 높습니다. 이는 경기 A의 결과가 더 불확실하다는 우리의 직관과 정확히 일치합니다.
3. 결론
- 경기 A: 브라질 (승리 확률 0.5) vs. 아르헨티나 (승리 확률 0.5)
- 정보량 (결과의 놀라움): 각 결과의 정보량은 1 bit로 동일합니다.
- 엔트로피 (사건의 불확실성): 1 bit로 불확실성이 높습니다.
- 경기 B: 브라질 (승리 확률 0.9) vs. 태국 (승리 확률 0.1)
- 정보량 (결과의 놀라움): 태국이 승리할 경우 정보량은 3.322 bit로 매우 큽니다.
- 엔트로피 (사건의 불확실성): 0.469 bit로 불확실성이 낮습니다.
개념을 정리하자면,
- 정보량은 '사건이 발생한 후'에 얻게 되는 정보의 가치, 즉 '놀라움'을 측정합니다.
- 태국이 브라질을 이기는 것은 놀라운 사건이므로 정보량이 매우 큽니다.
- 엔트로피는 '사건이 발생하기 전'에 그 사건이 가진 '불확실성'의 총량을 측정합니다.
- 경기 B는 태국의 승리라는 '잭팟' 같은 정보량을 가질 가능성이 있지만, 그 확률이 너무 낮아 평균적인 불확실성(엔트로피)은 오히려 팽팽한 경기 A보다 낮습니다.
이처럼 정보 이론은 '놀라움'과 '불확실성'이라는 추상적인 개념을 수학적으로 명확하게 측정하는 강력한 도구를 제공합니다.
'정보 이론 > 정보량과 엔트로피' 카테고리의 다른 글
| ENT-04. 정보량과 엔트로피: 동전 던지기와 데이터 압축으로 이해하기 (0) | 2026.02.03 |
|---|---|
| ENT-03. 동전 던지기로 쉽게 이해하는 정보량과 엔트로피 (0) | 2026.02.03 |
| ENT-01. 정보 이론의 핵심 개념: 정보량과 엔트로피 (0) | 2026.02.03 |