수학/푸아송 과정과 확률 분포

지수 분포의 이해

FedTensor 2025. 11. 28. 13:39

1. 직관적인 이해: 이산 시간에서 연속 시간으로

10분에 평균 1대꼴로 오는 버스가 있습니다.

  • 단위 시간(여기서는 1분) 당 버스 도착 확률(비율): $\lambda = \frac{1}{10} = 0.1$

A는 오전 9시에 버스 정류장에 도착하여 버스를 기다립니다. 버스가 도착할 시간을 1분 단위의 구간으로 나누어 생각해 봅시다.

  • 0~1분 (구간 1)
  • 1~2분 (구간 2)
  • ...

각 1분 단위 구간마다 버스가 도착할 확률을 $p = 0.1$이라고 가정해 봅시다. (반대로 도착하지 않을 확률은 $1-p = 0.9$입니다.)

 

A가 $t$분 시점까지 계속 기다리고 있을 확률(버스가 아직 도착하지 않았을 확률)을 계산해 보겠습니다.

  • 1분 후에도 못 탔을 확률:
    • 첫 번째 구간에서 안 옴: $(1-p) = 0.9$
  • 2분 후에도 못 탔을 확률:
    • 1구간 안 옴 $\times$ 2구간 안 옴 (독립 사건): $(1-p) \times (1-p) = 0.9^2 = 0.81$
  • 3분 후에도 못 탔을 확률:$(1-p)^3 = 0.9^3 = 0.729$
  • ...
  • $t$분 후에도 못 탔을 확률:
    • $(1-p)^t = 0.9^t$ (여기서 $t$는 지나간 1분 단위 구간의 횟수)

시간이 지날수록 버스를 아직 못 탔을 확률(대기 시간이 $t$보다 길어질 확률)은 점점 줄어듭니다.

2. 수식 유도: 연속적인 시간으로의 확장

위의 예시는 시간을 1분 단위로 쪼갠 이산(Discrete)적인 상황입니다. 실제 시간은 연속적이므로, 대기 시간 $t$를 아주 잘게 쪼개어 극한으로 보내봅시다.

  1. 전체 대기 시간 $t$를 $n$개의 아주 작은 구간으로 쪼갭니다.
  2. 각 작은 구간에서 버스가 도착할 확률 $p$는 시간 $t$ 동안의 평균 도착 횟수 $\lambda t$를 구간 수 $n$으로 나눈 것과 같습니다.$$p = \frac{\lambda t}{n}$$
    • $\lambda$: 단위 시간 당 평균 발생 횟수
    • $t$: 대기 시간
    • $n$: 대기 시간을 쪼갠 구간 수

2-1. 특정 시간 $t$까지 버스가 오지 않을 확률

A의 대기 시간이 $t$보다 길어질 확률, 즉 시간 $t$ 동안 버스가 한 번도 오지 않을 확률 $P(T > t)$는 다음과 같습니다.

$$P(T > t) = \lim_{n \to \infty} (1 - p)^n = \lim_{n \to \infty} \left(1 - \frac{\lambda t}{n}\right)^n$$

여기서 자연 상수 $e$의 정의를 활용합니다.

  • 자연 상수 $e$의 정의: $\lim_{n \to \infty} (1+\frac{x}{n})^n = e^{x}$

위 식에서 $x$ 자리에 $-\lambda t$를 대입하면 다음과 같은 결과를 얻습니다.

$$P(T > t) = e^{-\lambda t}$$

이것은 생존 함수(Survival Function)라고도 하며, 시간 $t$가 지날 때까지 사건이 발생하지 않을 확률입니다.

2-2. 누적 분포 함수 (CDF)

반대로, 시간 $t$ 이내에 버스가 도착할 확률, 즉 누적 분포 함수 $F(t)$는 전체 확률 1에서 '안 올 확률'을 뺀 것입니다.

$$F(t) = P(T \le t) = 1 - P(T > t) \quad (\text{여사건의 확률}) = 1 - e^{-\lambda t}$$

2-3. 확률 밀도 함수 (PDF) 도출

지수 분포의 확률 밀도 함수 $f(t)$는 누적 분포 함수 $F(t)$를 시간 $t$에 대해 미분하여 구합니다.

$$f(t) = \frac{d}{dt} F(t) = \frac{d}{dt} (1 - e^{-\lambda t})$$

미분을 수행하면 상수는 사라지고, 지수 함수의 미분 법칙에 의해 다음과 같은 최종 식이 나옵니다.

$$f(t; \lambda) = \lambda e^{-\lambda t} \quad (단, \ t \ge 0)$$

즉, 시간이 지날수록 사건이 발생할 확률 밀도가 지수적으로 감소함을 의미합니다.이것이 바로 우리가 찾는 지수 분포의 확률 밀도 함수입니다.

3. 버스 시스템의 수학적 모델과 현실의 차이

"무기억성이 지수 분포의 가장 큰 특징입니다. 이미 10분을 기다렸다고 해서, 앞으로 버스가 더 빨리 올 확률이 높아지지 않습니다. 기다린 시간은 미래의 확률에 영향을 주지 않습니다."

 

위 문장은 '지수 분포'라는 수학적 모델 내에서는 참이지만, 우리가 경험하는 '현실의 버스 시스템'과는 차이가 있습니다.

이 차이가 발생하는 근본적인 이유는 '발생의 원리'가 다르기 때문입니다. 그 차이를 3가지 핵심 포인트로 설명할 수 있습니다.

3-1. 완전 무작위(Random) vs. 규칙성(Schedule)

  • 지수 분포의 세계 (모델): 지수 분포는 사건이 완전히 무작위로, 독립적으로 발생한다고 가정합니다. 마치 방사능 원소가 언제 붕괴할지 모르거나, 콜센터에 전화가 언제 걸려올지 모르는 상황과 같습니다. 앞차가 언제 왔는지와 상관없이 뒷차는 언제든 올 수 있습니다.
    • 예: 1초 전에 버스가 갔어도, 지금 당장 또 다른 버스가 올 확률이 똑같이 존재함.
  • 현실의 세계: 버스는 '배차 간격'과 '시간표'가 있습니다. 버스 기사님들은 앞차와의 간격을 일정하게 유지하려고 노력합니다.
    • 현실: 방금 버스가 떠났다면, 바로 다음 1분 안에 버스가 올 확률은 거의 0에 가깝습니다. (배차 간격이 있기 때문)

3-2. 확률의 리셋(Reset) vs. 확률의 증가(Aging)

  • 문장의 내용 (무기억성): "10분을 기다렸어도 확률은 높아지지 않는다"는 말은, 10분이 지난 시점에서 '대기 시간이 리셋'되어 마치 방금 정류장에 도착한 사람과 똑같은 처지가 된다는 뜻입니다.
  • 현실의 경험: 현실의 버스가 규칙적으로(예: 15분 간격) 온다면, 시간이 지날수록 버스가 올 확률은 급격히 올라갑니다.
    • 현실: 15분 간격인 버스를 10분 기다렸다면, 남은 5분 안에 올 확률은 매우 높습니다. 기다린 시간이 헛되지 않고 '도착 예정 시간'에 가까워진 것입니다. (이를 통계학적으로는 IFR, 즉 실패율 증가 모델이라고 하며 정규분포 등에 더 가깝습니다.)

3-3. 그렇다면 왜 지수 분포로 설명했을까요?

현실과 다름에도 불구하고 버스 대기 시간을 지수 분포로 설명하는 이유는 '완전한 혼돈(Chaos)' 상태를 가정하기 때문입니다.

  • 교통 체증이 극심하여 배차 간격이 완전히 깨진 경우: 버스가 언제 올지 전혀 예측할 수 없고, 심지어 버스 두 대가 연달아 오거나(Bunching), 한참 동안 안 오기도 합니다.
  • 도착 정보를 전혀 모르는 상태: 내가 정류장에 언제 도착했는지, 버스가 언제 지나갔는지 전혀 모르는 상태에서 무작위로 기다리는 상황.

이런 '예측 불가능한 무질서한 상황'에서는 현실의 버스 도착 패턴도 지수 분포(무작위 발생)와 수학적으로 매우 비슷해지기 때문에, 통계학 입문에서 가장 대표적인 예시로 사용됩니다.

요약하자면,

  • 문장의 내용: "언제 올지 전혀 모르는 완전 무작위 상황"을 가정한 수학적 진실입니다.
  • 현실: "시간표와 배차 간격"이 존재하므로, 많이 기다릴수록 버스가 올 확률은 보통 높아집니다.