연합학습(Federated Learning)의 최대 난제는 각 로컬 기관(Client)의 데이터가 서로 다른 분포를 가지는 Non-IID(Not Identically and Independently Distributed) 특성을 띈다는 점입니다. 이를 해결하기 위해 KL 발산(Kullback-Leibler Divergence)을 활용하여 데이터 이질성을 정량화하고 적합한 학습 전략, 또는 병합 전략을 선택할 수 있습니다.
1. 수학적 배경: KL-Divergence와 데이터 분포
KL-Divergence는 두 확률분포 $P$와 $Q$ 사이의 차이를 측정하는 지표입니다. 물리학의 엔트로피 개념과 밀접한 관련이 있으며, 정보이론에서는 '실제 분포 $P$를 근사 분포 $Q$로 모델링했을 때 발생하는 정보 손실량'으로 해석됩니다.
$$D_{KL}(P \parallel Q) = \sum_{x \in X} P(x) \log \left( \frac{P(x)}{Q(x)} \right)$$
- $P$ (Actual/Local Distribution): 개별 의료기관(A병원, B병원 등)에 실제로 존재하는 데이터의 분포 (기준점)
- $Q$ (Reference/Global Distribution): 모든 참여 기관의 데이터를 포괄하는 전체(글로벌) 데이터의 분포 (근사 대상)
의미 분석: $D_{KL}(P \parallel Q)$ 값이 클수록 해당 기관의 로컬 데이터($P$)가 전체적인 데이터 경향성($Q$)에서 크게 벗어나 있음을 의미하며, 이는 곧 높은 수준의 Non-IID 상태를 나타냅니다.
2. 의료 데이터에서의 Non-IID 유형 및 측정 대상
의료 현장에서 발생하는 데이터 이질성을 크게 세 가지 차원에서 분석합니다.
| 유형 | 분석 대상 | KL-Divergence 적용 방식 |
| 라벨 불균형 (Label Skew) | 질환의 유무/중증도 비율 차이 | 각 기관별 진단 라벨($y$)의 확률 분포 차이 측정 |
| 특징 이질성 (Feature Skew) | 의료 장비, 촬영 프로토콜 차이 | 영상 이미지의 픽셀 강도나 메타데이터($x$) 분포 차이 측정 |
| 개념 변화 (Concept Drift) | 의료진의 판단 기준 차이 | 동일한 생체 신호($x$) 대비 진단 결과($y$)인 $P(y|x)$의 사후 확률 분포 차이 측정 |
3. 정량 분석 프로세스
- 로컬 분포 프로파일링: 각 의료기관에서 데이터의 민감한 정보는 제외하고, 통계적 특징(예: 클래스별 빈도, 히스토그램)만 추출하여 서버로 전송합니다.
- 참조 분포(Global Baseline) 설정: 모든 참여 기관의 통계치를 집계하여 표준이 되는 글로벌 분포를 생성합니다.
- Divergence 계산: 각 로컬 기관의 분포와 글로벌 분포 간의 KL-Divergence 값을 산출합니다.
- 값이 0에 가까우면: 해당 기관의 데이터는 전체 평균과 유사(IID에 가까움).
- 값이 클수록: 해당 기관의 데이터는 매우 독특하거나 편향됨(Strong Non-IID).
4. 최적화 전략
단순히 차이를 측정하는 데 그치지 않고, 이를 모델 업데이트 가중치에 반영합니다.
- 가중치 조절: KL-Divergence가 큰 기관(특이 데이터 보유)의 모델 업데이트가 전체 글로벌 모델을 오염시키지 않도록, 집계 시 해당 기관의 가중치($\alpha$)를 조절합니다.
- 개인화 연합학습(pFL): Divergence가 큰 기관에는 글로벌 모델을 그대로 적용하기보다, 해당 기관의 로컬 특성을 유지하는 '개인화 레이어'를 추가하여 최적의 성능을 발휘하게 합니다.
'연합학습 > 추론 성능' 카테고리의 다른 글
| 데이터 이질성 측정: 글로벌 평균 기준 발산 측정 vs. 클라이언트 간 쌍대 비교 (0) | 2026.03.04 |
|---|---|
| 데이터 사이의 거리: KL 발산부터 Wasserstein 거리까지 (0) | 2026.02.03 |
| 연합학습에서의 데이터 이질성(Non-IID) 정량화 (0) | 2026.01.10 |
| Non-IID 환경을 위한 병합 전략: FedFocal (0) | 2025.12.01 |
| 연합학습 시 희소 데이터의 희석 문제 완화 방안 3가지 (0) | 2025.11.18 |