ENT-02. 축구 경기로 쉽게 이해하는 정보량과 엔트로피

정보 이론/정보량과 엔트로피

ENT-02. 축구 경기로 쉽게 이해하는 정보량과 엔트로피

FedTensor 2026. 2. 3. 11:36

오늘 밤, 흥미로운 두 축구 경기가 동시에 열립니다.

경기 A: 브라질 (승리 확률 0.5) vs. 아르헨티나 (승리 확률 0.5)
경기 B: 브라질 (승리 확률 0.9) vs. 태국 (승리 확률 0.1)

어떤 경기가 더 예측하기 어려울까요? 그리고 어떤 경기 결과가 우리를 더 놀라게 할까요?

정보 이론은 '불확실성'과 '놀라움'이라는 직관적인 개념을 엔트로피(Entropy)와 정보량(Information Content)이라는 수학적 척도로 명쾌하게 설명합니다. 위 두 경기를 통해 이 개념들을 쉽게 이해해 보겠습니다.

1. 직관적으로 살펴보기

놀람의 정도: "결과를 듣고 보니"

경기가 끝난 후 결과를 들었을 때 얼마나 놀라울지 생각해 봅시다.

경기 A (브라질 vs. 아르헨티나): 팽팽한 라이벌 전이라 브라질이 이기든, 아르헨티나가 이기든 "그럴 수 있지"라고 생각할 가능성이 큽니다.
- 놀라움이 크지 않습니다.
경기 B (브라질 vs. 태국): 모두가 브라질의 승리를 예상합니다.
- 브라질이 이기면: "예상대로군." (놀라움이 거의 없음)
- 태국이 이기면: "세상에, 말도 안 돼!" (엄청난 놀라움)

이 '놀람의 정도'가 바로 정보 이론에서 말하는 정보량의 직관적 의미입니다. 즉, 발생 확률이 낮은 사건의 결과일수록 더 많은 정보량을 가집니다.

정보량(놀람의 정도) 비교:

$I(\text{경기 B: 태국 승리})>I(\text{경기 A: 브라질/아르헨티나 승리})>I(\text{경기 B: 브라질 승리})$

예측의 어려움: "경기를 보기 전에"

이번에는 경기가 시작되기 전, 승부를 예측하는 것이 얼마나 어려운지 생각해 봅시다.

경기 A (브라질 vs. 아르헨티나): 두 팀의 전력이 비슷해서 누가 이길지 전혀 감을 잡을 수 없습니다. 예측의 불확실성이 매우 높습니다.
경기 B (브라질 vs. 태국): 대부분의 사람이 브라질의 승리를 점칠 것입니다. 예측이 비교적 쉽고, 불확실성이 낮습니다.

이 '예측의 어려움', 즉 '불확실성의 정도'가 바로 엔트로피의 직관적 의미입니다.

엔트로피(예측 불확실성) 비교:

$H(\text{경기 A})>H(\text{경기 B})$

2. 정보 이론으로 정량화하기

이제 직관적인 개념을 수학 공식으로 표현해 보겠습니다.

정보량 (Information Content)

어떤 사건 $x$가 발생했다는 것을 알게 되었을 때 얻는 정보의 양이며, 다음과 같이 계산합니다. 정보량의 단위는 비트(bit)입니다.

$I(x)=-\log _2P(x)$

$P(x)$: 사건 $x$가 발생할 확률
확률($P(x)$)이 낮을수록 정보량($I(x)$)은 커집니다.

각 경기 결과의 정보량 계산:

경기 A
- $I(\text{브라질 승리}) = −\log_2(0.5) = 1 \ \text{bit}$
- $I(\text{아르헨티나 승리}) = −\log_2(0.5) = 1 \ \text{bit}$
경기 B
- $I(\text{브라질 승리}) = −\log_2(0.9) ≈ 0.152 \ \text{bit}$
- $I(\text{태국 승리}) = −\log_2(0.1) ≈ 3.322 \ \text{bit}$

계산 결과, 태국이 승리하는 사건의 정보량이 압도적으로 높은 것을 확인할 수 있습니다. 이는 우리의 직관과 일치합니다.

엔트로피 (Entropy)

어떤 확률적 사건(예: 축구 경기)에 대해 얻을 수 있는 정보량의 기댓값(평균)입니다. 즉, 그 사건이 얼마나 불확실한지를 나타내는 척도입니다.

$H(X)=E[I(X)]=\sum _i^{ }P(x_i)I(x_i)=-\sum _i^{ }P(x_i)\log _2P(x_i)$

모든 가능한 사건의 (확률 × 정보량)을 더한 값입니다.
확률 분포가 균등할수록(모든 사건의 확률이 비슷할수록) 엔트로피는 최댓값을 가집니다.

각 경기의 엔트로피 계산:

경기 A
- H(경기A)=[0.5×I(브라질)]+[0.5×I(아르헨티나)]=(0.5×1)+(0.5×1)=1 bit
경기 B
- H(경기B)=[0.9×I(브라질)]+[0.1×I(태국)]=(0.9×0.152)+(0.1×3.322)≈0.137+0.332=0.469 bit

계산 결과, 두 팀의 승리 확률이 0.5로 동일했던 경기 A의 엔트로피가 더 높습니다. 이는 경기 A의 결과가 더 불확실하다는 우리의 직관과 정확히 일치합니다.

3. 결론

경기 A: 브라질 (승리 확률 0.5) vs. 아르헨티나 (승리 확률 0.5)
- 정보량 (결과의 놀라움): 각 결과의 정보량은 1 bit로 동일합니다.
- 엔트로피 (사건의 불확실성): 1 bit로 불확실성이 높습니다.
경기 B: 브라질 (승리 확률 0.9) vs. 태국 (승리 확률 0.1)
- 정보량 (결과의 놀라움): 태국이 승리할 경우 정보량은 3.322 bit로 매우 큽니다.
- 엔트로피 (사건의 불확실성): 0.469 bit로 불확실성이 낮습니다.

개념을 정리하자면,

정보량은 '사건이 발생한 후'에 얻게 되는 정보의 가치, 즉 '놀라움'을 측정합니다.
- 태국이 브라질을 이기는 것은 놀라운 사건이므로 정보량이 매우 큽니다.
엔트로피는 '사건이 발생하기 전'에 그 사건이 가진 '불확실성'의 총량을 측정합니다.
- 경기 B는 태국의 승리라는 '잭팟' 같은 정보량을 가질 가능성이 있지만, 그 확률이 너무 낮아 평균적인 불확실성(엔트로피)은 오히려 팽팽한 경기 A보다 낮습니다.

이처럼 정보 이론은 '놀라움'과 '불확실성'이라는 추상적인 개념을 수학적으로 명확하게 측정하는 강력한 도구를 제공합니다.

'정보 이론 > 정보량과 엔트로피' 카테고리의 다른 글

ENT-04. 정보량과 엔트로피: 동전 던지기와 데이터 압축으로 이해하기 (0)	2026.02.03
ENT-03. 동전 던지기로 쉽게 이해하는 정보량과 엔트로피 (0)	2026.02.03
ENT-01. 정보 이론의 핵심 개념: 정보량과 엔트로피 (0)	2026.02.03

현재글ENT-02. 축구 경기로 쉽게 이해하는 정보량과 엔트로피

페드텐서 FedTensor

데이터의 보호와 활용 - 천천히, 제대로

푸아송분포, 차등정보보호, 안전한집계, 개인정보보호, 인공지능, non-iid, ecdlp, 멱법칙, 베이지안추론, 신경망, 엔트로피, 프라이버시, 이산로그문제, ECC, 정보보호, 뇌가소성, 사이버보안, 비밀공유, 신경세포, 트랜스포머, 차분프라이버시, 타원곡선암호, kl발산, 데이터분석, 이질적데이터, 보안다자간계산, smpc, 데이터이질성, 연합학습, secagg+,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

페드텐서 FedTensor