1) 이항 분포 -> 2) 푸아송 분포 -> 3) 지수 분포 -> 4) 감마 분포 -> 5) 디리클레 분포 -> 6) Non-IID 데이터 시뮬레이션
확률 분포들이 서로 어떻게 연결되어 있는지 이해하는 것은 통계적 모델링과 데이터 시뮬레이션, 특히 머신러닝의 데이터 분포를 이해하는 데 매우 중요합니다. 위 여섯 단계는 '이산(Discrete)에서 연속(Continuous)으로', 그리고 '단일 사건에서 다변량 비율(Multivariate Proportion)로' 확장되는 흐름을 가지고 있습니다.
이 문서에서는 각 단계의 핵심 개념과 수식적 관계, 그리고 마지막으로 이를 활용한 Non-IID 데이터 시뮬레이션까지 설명합니다.
1. 이항 분포(Binomial) $\rightarrow$ 푸아송 분포(Poisson)
"시행 횟수는 무한히 늘어나고, 성공 확률은 희박해질 때"
이항 분포 $B(n, p)$는 $n$번의 시행 중 성공 확률이 $p$일 때 성공 횟수를 나타냅니다. 여기서 시행 횟수 $n$이 매우 커지고($n \to \infty$), 성공 확률 $p$가 매우 작아져서($p \to 0$), 평균 발생 횟수 $\lambda = np$가 일정하게 유지되는 극한 상황을 생각해 봅시다.
- 관계: 이항 분포의 극한(Limit) 형태가 바로 푸아송 분포입니다.
- 수식적 직관: $$\lim_{n \to \infty} \binom{n}{k} p^k (1-p)^{n-k} = \frac{e^{-\lambda} \lambda^k}{k!}$$
- 의미: 시간이나 공간과 같은 연속적인 범위 내에서 발생하는 '희귀한 사건의 횟수'를 모델링할 때 사용합니다. (예: 1시간 동안 서버에 들어오는 요청 수)
2. 푸아송 분포(Poisson) $\rightarrow$ 지수 분포(Exponential)
"사건의 횟수(Count) vs 사건 간의 시간(Interval)"
이 둘은 동전의 양면과 같습니다. 푸아송 분포가 특정 시간 동안 발생한 사건의 횟수에 관심을 둔다면, 지수 분포는 첫 번째 사건이 발생할 때까지 대기하는 시간에 관심을 둡니다.
- 관계: 푸아송 프로세스(Poisson Process)를 따르는 사건들 사이의 대기 시간(Inter-arrival time)은 지수 분포를 따릅니다.
- 수식적 직관: 단위 시간당 평균 $\lambda$회 발생하는 사건이 있을 때, 시간 $t$까지 사건이 0번 발생할 확률(푸아송)은 다음과 같습니다.$$P(N(t) = 0) = \frac{e^{-\lambda t} (\lambda t)^0}{0!} = e^{-\lambda t}$$이것은 첫 사건이 시간 $t$ 이후에 발생할 확률($P(T > t)$)과 같으므로, 첫 사건이 시간 $t$ 이내에 발생할 확률($P(T \le t) = 1 - P(T > t) = 1 - e^{-\lambda t}$)을 $t$에 대해 미분하면 지수 분포의 확률밀도함수(PDF)인 $\lambda e^{-\lambda t}$를 얻습니다.
3. 지수 분포(Exponential) $\rightarrow$ 감마 분포(Gamma)
"첫 번째 사건까지의 시간 vs $k$번째 사건까지의 누적 시간"
지수 분포가 '다음 사건이 터질 때까지 걸리는 시간'이라면, 감마 분포는 이를 일반화하여 '$k$번의 사건이 터질 때까지 걸리는 총 시간'을 나타냅니다.
- 관계: 서로 독립적인 지수 분포를 따르는 확률 변수들의 합(Sum)은 감마 분포를 따릅니다.
- 수식적 직관: $X_1, X_2, ..., X_k$가 모두 parameter $\lambda$인 지수 분포를 따를 때, $$Y = \sum_{i=1}^{k} X_i \sim \text{Gamma}(k, \lambda)$$ 여기서 $k$는 형상 모수(Shape parameter, $\alpha$), $\lambda$는 척도 모수(Scale parameter, $\beta$ 혹은 rate)가 됩니다.
4. 감마 분포(Gamma) $\rightarrow$ 디리클레 분포(Dirichlet)
"절대적인 크기 vs 상대적인 비율(Proportion)"
이 연결고리는 베이지안 통계와 데이터 생성 모델에서 매우 중요합니다. 감마 분포가 $0$에서 $\infty$까지의 값을 가진다면, 디리클레 분포는 합이 1이 되는 확률 벡터(비율)를 생성합니다.
- 관계: 독립적인 감마 분포 확률 변수들을 그들의 총합으로 나누어 정규화(Normalization)하면 디리클레 분포가 됩니다.
- 생성 원리 (Gamma-Dirichlet Construction): $X_1, ..., X_K$가 각각 $\text{Gamma}(\alpha_i, 1)$을 따르는 독립적인 확률 변수라고 할 때, $$Y_i = \frac{X_i}{\sum_{j=1}^{K} X_j}$$로 정의된 벡터 $(Y_1, ..., Y_K)$는 디리클레 분포 $\text{Dir}(\alpha_1, ..., \alpha_K)$를 따릅니다.
- 의미: 즉, 디리클레 분포는 '단위 심플렉스(Simplex) 위에서의 분포'로 이해할 수 있습니다.
5. Non-IID 데이터 시뮬레이션 (활용)
"데이터 불균형(Heterogeneity)을 인위적으로 생성하기"
연합 학습(Federated Learning)이나 분산 학습 연구에서 클라이언트 간의 데이터 분포가 서로 다른 Non-IID(Non-Independent and Identically Distributed) 상황을 실험해야 할 때가 많습니다. 이때 가장 표준적으로 사용되는 방법이 디리클레 분포를 활용하는 것입니다.
- Label Distribution Skew 생성:
전체 데이터셋을 $N$명의 클라이언트에게 나누어 줄 때, 각 클라이언트가 특정 클래스(Label)의 데이터를 얼마나 가질지 결정해야 합니다. - 작동 방식:
- 각 클래스 $c$에 대해, 클라이언트들의 비율 벡터 $p_c \sim \text{Dir}(\alpha)$를 샘플링합니다.
- 여기서 농도 파라미터(Concentration Parameter) $\alpha$가 핵심 역할을 합니다.
- $\alpha \to \infty$: 모든 클라이언트가 해당 클래스를 균등하게 나눠 가짐 (IID에 가까움).
- $\alpha \to 0$: 하나의 클라이언트가 해당 클래스를 독점함 (Extreme Non-IID).
- 결론: 앞서 살펴본 "감마 분포 $\to$ 디리클레 분포"의 성질을 이용해, $\alpha$ 값 하나로 데이터의 이질성 정도를 수학적으로 정교하게 제어할 수 있게 됩니다.
요약 및 연결 흐름
- 이항 $\to$ 푸아송: 무한 시행, 희귀 확률 (이산 $\to$ 이산 극한)
- 푸아송 $\to$ 지수: 사건 횟수 $\to$ 대기 시간 (이산 $\to$ 연속)
- 지수 $\to$ 감마: 1회 대기 $\to$ $k$회 누적 대기 (합의 분포)
- 감마 $\to$ 디리클레: 절대 크기 $\to$ 상대적 비율 (정규화)
- 디리클레 $\to$ Non-IID: 비율 분포를 이용한 데이터 파티셔닝 (응용)
이 흐름은 확률론적 기초에서 시작하여 실제 머신러닝 실험 데이터 생성까지 이어지는 매우 논리적인 체계입니다.
'수학 > 푸아송 과정과 확률 분포' 카테고리의 다른 글
| 감마 분포 -> 디리클레 분포 (0) | 2025.11.28 |
|---|---|
| 지수 분포 -> 감마 분포 (0) | 2025.11.27 |
| 푸아송 분포 -> 지수 분포 (0) | 2025.11.27 |
| 이항분포 -> 푸아송 분포 (0) | 2025.11.27 |
| 푸아송 과정(Poisson Process) (0) | 2025.11.26 |