데이터 반출 없는 다 기관 협업 인공지능 학습 인프라

정보 이론/정보량과 엔트로피

ENT-03. 동전 던지기로 쉽게 이해하는 정보량과 엔트로피

FedTensor 2026. 2. 3. 11:52

정보(Information)란 무엇이며, 어떻게 그 양을 측정할 수 있을까요? 정보 이론(Information Theory)은 이러한 질문에 답을 제시하며, '정보량'과 '엔트로피'는 그 핵심 개념입니다. 이 두 개념은 데이터 압축부터 머신러닝에 이르기까지 다양한 분야에서 활용됩니다.

1. 정보량 (Information Content): 놀라움의 정도

어떤 사건이 얼마나 많은 정보를 담고 있는지를 나타내는 척도를 정보량이라고 합니다. 정보량은 '해당 사건이 얼마나 놀라운가?'와 같습니다. 즉, 발생할 확률이 낮은 사건일수록 더 놀랍고, 따라서 더 많은 정보를 담고 있습니다.

 

예를 들어, "내일 해가 동쪽에서 뜰 것이다"라는 소식은 전혀 놀랍지 않으므로 정보량이 거의 0에 가깝습니다. 반면, "내일 서울에 운석이 떨어질 것이다"라는 소식은 매우 놀라우므로 정보량이 엄청나게 큽니다.

 

특정 사건 $x$의 정보량 $I(x)$는 다음과 같이 수학적으로 정의됩니다.

$I(x)=−\log _2P(x)$​
  • $P(x)$: 사건 $x$가 발생할 확률

로그의 밑으로 2를 사용하는 이유는 정보량을 나타내는 기본 단위인 비트(bit)로 표현하기 위함입니다.

예시

  • 공정한 동전 던지기:
    • 앞면이 나올 확률 $P(\text{앞면})=0.5$
    • 앞면이 나왔다는 사건의 정보량: $I(\text{앞면})=−\log_2(0.5)=1 \ \text{비트}$
    • 이는 '앞면'과 '뒷면' 두 가지 경우를 구분하기 위해 1비트가 필요하다는 의미와 같습니다.
  • 4가지 색깔의 공:
    • 바구니에 빨강, 노랑, 파랑, 보라색 공이 각각 하나씩 들어있고, 각 공을 뽑을 확률이 $P(\text{색깔})=0.25$로 같다고 가정해 봅시다.
    • 특정 색깔의 공을 뽑았다는 사건의 정보량: $I(\text{색깔})=−\log_2(0.25)=2 \ \text{비트}$
    • 네 가지 색깔을 구분하기 위해서는 2비트가 필요합니다. (00, 01, 10, 11)

요약: 사건의 확률이 낮을수록(드물게 일어날수록) 정보량은 커집니다.

사건 발생 확률(P)에 따른 정보량(I)

2. 엔트로피 (Entropy): 불확실성의 평균

엔트로피는 어떤 정보원(예: 동전)에서 발생하는 모든 사건들의 정보량에 대한 기댓값(평균)입니다. 즉, 정보원이 평균적으로 얼마나 많은 정보량을 생성하는지를 나타내는 척도이며, 이는 곧 정보원의 불확실성을 의미합니다.

엔트로피가 높다는 것은 결과가 어떻게 나올지 예측하기 어렵다는 뜻이고, 엔트로피가 낮다는 것은 결과를 예측하기 쉽다는 뜻입니다.

이산 확률 변수 $X$의 엔트로피 $H(X)$는 다음과 같이 정의됩니다.

 

$H(X)=E[I(X)]=\sum _i^{ }P(x_i)I(x_i)=−\sum _i^{ }P(x_i)\log _2P(x_i)$​
  • $P(x_i)$: 각 사건 $x_i$가 발생할 확률

사건 발생 확률(P)에 따른 엔트로피 기여도

동전 던지기 예시로 본 엔트로피

동전의 앞면이 나올 확률을 $P$, 뒷면이 나올 확률을 $Q=1−P$라고 할 때, 이 동전의 엔트로피를 계산해 봅시다.

  • 예시 1: 공정한 동전 (앞면 확률 50%)
    • $P = 0.5, Q = 0.5$
    • $H(X) = −[0.5×\log_2(0.5)+0.5×\log_2(0.5)] = 1$
    • 결과를 전혀 예측할 수 없으므로 불확실성이 가장 높고, 엔트로피도 최댓값인 1이 됩니다.
  • 예시 2: 약간 삐딱한 동전 (앞면 확률 75%)
    • $P = 0.75, Q = 0.25$
    • $H(X) = −[0.75×\log_2(0.75)+0.25×\log_2(0.25)] ≈ 0.811$
    • 앞면이 더 자주 나오므로 첫 번째 예시보다 예측하기 쉬워졌습니다. 따라서 불확실성이 감소했고, 엔트로피 값도 더 작습니다.
  • 예시 3: 양면이 모두 앞면인 동전 (앞면 확률 100%)
    • $P = 1, Q = 0$
    • $H(X) = −[1×\log_2(1)] = 0$
    • 결과는 항상 '앞면'으로 정해져 있습니다. 불확실성이 전혀 없으므로 엔트로피는 0입니다.

요약: 엔트로피는 확률 분포가 균등할수록(모든 사건의 발생 확률이 비슷할수록) 최댓값을 가지며, 확률 분포가 특정 값에 치우칠수록 0에 가까워집니다.

동전 앞면 발생 확률(P)에 따른 엔트로피(H)

결론: 정보량 vs. 엔트로피

  • 정보량은 개별 사건에 대한 놀라움의 정도, 즉 정보의 크기를 측정합니다.
  • 엔트로피는 정보원 전체에 대한 불확실성의 평균적인 크기를 측정합니다.

이 두 개념을 통해 우리는 불확실성을 정량적으로 분석하고, 더 효율적으로 정보를 처리하고 압축하는 방법을 찾을 수 있습니다.