데이터 반출 없는 다 기관 협업 인공지능 학습 인프라

연합학습/추론 성능

KL 발산 기반 Non-IID 정량 분석 및 연합학습 최적화

FedTensor 2026. 2. 22. 22:00

연합학습(Federated Learning)의 최대 난제는 각 로컬 기관(Client)의 데이터가 서로 다른 분포를 가지는 Non-IID(Not Identically and Independently Distributed) 특성을 띈다는 점입니다. 이를 해결하기 위해 KL 발산(Kullback-Leibler Divergence)을 활용하여 데이터 이질성을 정량화하고 적합한 학습 전략, 또는 병합 전략을 선택할 수 있습니다.

1. 수학적 배경: KL-Divergence와 데이터 분포

KL-Divergence는 두 확률분포 $P$와 $Q$ 사이의 차이를 측정하는 지표입니다. 물리학의 엔트로피 개념과 밀접한 관련이 있으며, 정보이론에서는 '실제 분포 $P$를 근사 분포 $Q$로 모델링했을 때 발생하는 정보 손실량'으로 해석됩니다.

$$D_{KL}(P \parallel Q) = \sum_{x \in X} P(x) \log \left( \frac{P(x)}{Q(x)} \right)$$

  • $P$ (Actual/Local Distribution): 개별 의료기관(A병원, B병원 등)에 실제로 존재하는 데이터의 분포 (기준점)
  • $Q$ (Reference/Global Distribution): 모든 참여 기관의 데이터를 포괄하는 전체(글로벌) 데이터의 분포 (근사 대상)

의미 분석: $D_{KL}(P \parallel Q)$ 값이 클수록 해당 기관의 로컬 데이터($P$)가 전체적인 데이터 경향성($Q$)에서 크게 벗어나 있음을 의미하며, 이는 곧 높은 수준의 Non-IID 상태를 나타냅니다.

2. 의료 데이터에서의 Non-IID 유형 및 측정 대상

의료 현장에서 발생하는 데이터 이질성을 크게 세 가지 차원에서 분석합니다.

유형 분석 대상 KL-Divergence 적용 방식
라벨 불균형 (Label Skew) 질환의 유무/중증도 비율 차이 각 기관별 진단 라벨($y$)의 확률 분포 차이 측정
특징 이질성 (Feature Skew) 의료 장비, 촬영 프로토콜 차이 영상 이미지의 픽셀 강도나 메타데이터($x$) 분포 차이 측정
개념 변화 (Concept Drift) 의료진의 판단 기준 차이 동일한 생체 신호($x$) 대비 진단 결과($y$)인 $P(y|x)$의 사후 확률 분포 차이 측정

3. 정량 분석 프로세스

  1. 로컬 분포 프로파일링: 각 의료기관에서 데이터의 민감한 정보는 제외하고, 통계적 특징(예: 클래스별 빈도, 히스토그램)만 추출하여 서버로 전송합니다.
  2. 참조 분포(Global Baseline) 설정: 모든 참여 기관의 통계치를 집계하여 표준이 되는 글로벌 분포를 생성합니다.
  3. Divergence 계산: 각 로컬 기관의 분포와 글로벌 분포 간의 KL-Divergence 값을 산출합니다.
    • 값이 0에 가까우면: 해당 기관의 데이터는 전체 평균과 유사(IID에 가까움).
    • 값이 클수록: 해당 기관의 데이터는 매우 독특하거나 편향됨(Strong Non-IID).

4. 최적화 전략

단순히 차이를 측정하는 데 그치지 않고, 이를 모델 업데이트 가중치에 반영합니다.

  • 가중치 조절: KL-Divergence가 큰 기관(특이 데이터 보유)의 모델 업데이트가 전체 글로벌 모델을 오염시키지 않도록, 집계 시 해당 기관의 가중치($\alpha$)를 조절합니다.
  • 개인화 연합학습(pFL): Divergence가 큰 기관에는 글로벌 모델을 그대로 적용하기보다, 해당 기관의 로컬 특성을 유지하는 '개인화 레이어'를 추가하여 최적의 성능을 발휘하게 합니다.