KL 발산 기반 Non-IID 정량 분석 및 연합학습 최적화

연합학습/추론 성능

KL 발산 기반 Non-IID 정량 분석 및 연합학습 최적화

FedTensor 2026. 2. 22. 22:00

연합학습(Federated Learning)의 최대 난제는 각 로컬 기관(Client)의 데이터가 서로 다른 분포를 가지는 Non-IID(Not Identically and Independently Distributed) 특성을 띈다는 점입니다. 이를 해결하기 위해 KL 발산(Kullback-Leibler Divergence)을 활용하여 데이터 이질성을 정량화하고 적합한 학습 전략, 또는 병합 전략을 선택할 수 있습니다.

1. 수학적 배경: KL-Divergence와 데이터 분포

KL-Divergence는 두 확률분포 $P$와 $Q$ 사이의 차이를 측정하는 지표입니다. 물리학의 엔트로피 개념과 밀접한 관련이 있으며, 정보이론에서는 '실제 분포 $P$를 근사 분포 $Q$로 모델링했을 때 발생하는 정보 손실량'으로 해석됩니다.

$$D_{KL}(P \parallel Q) = \sum_{x \in X} P(x) \log \left( \frac{P(x)}{Q(x)} \right)$$

$P$ (Actual/Local Distribution): 개별 의료기관(A병원, B병원 등)에 실제로 존재하는 데이터의 분포 (기준점)
$Q$ (Reference/Global Distribution): 모든 참여 기관의 데이터를 포괄하는 전체(글로벌) 데이터의 분포 (근사 대상)

의미 분석: $D_{KL}(P \parallel Q)$ 값이 클수록 해당 기관의 로컬 데이터($P$)가 전체적인 데이터 경향성($Q$)에서 크게 벗어나 있음을 의미하며, 이는 곧 높은 수준의 Non-IID 상태를 나타냅니다.

2. 의료 데이터에서의 Non-IID 유형 및 측정 대상

의료 현장에서 발생하는 데이터 이질성을 크게 세 가지 차원에서 분석합니다.

유형	분석 대상	KL-Divergence 적용 방식
라벨 불균형 (Label Skew)	질환의 유무/중증도 비율 차이	각 기관별 진단 라벨($y$)의 확률 분포 차이 측정
특징 이질성 (Feature Skew)	의료 장비, 촬영 프로토콜 차이	영상 이미지의 픽셀 강도나 메타데이터($x$) 분포 차이 측정
개념 변화 (Concept Drift)	의료진의 판단 기준 차이	동일한 생체 신호($x$) 대비 진단 결과($y$)인 $P(y\|x)$의 사후 확률 분포 차이 측정

3. 정량 분석 프로세스

로컬 분포 프로파일링: 각 의료기관에서 데이터의 민감한 정보는 제외하고, 통계적 특징(예: 클래스별 빈도, 히스토그램)만 추출하여 서버로 전송합니다.
참조 분포(Global Baseline) 설정: 모든 참여 기관의 통계치를 집계하여 표준이 되는 글로벌 분포를 생성합니다.
Divergence 계산: 각 로컬 기관의 분포와 글로벌 분포 간의 KL-Divergence 값을 산출합니다.
- 값이 0에 가까우면: 해당 기관의 데이터는 전체 평균과 유사(IID에 가까움).
- 값이 클수록: 해당 기관의 데이터는 매우 독특하거나 편향됨(Strong Non-IID).

4. 최적화 전략

단순히 차이를 측정하는 데 그치지 않고, 이를 모델 업데이트 가중치에 반영합니다.

가중치 조절: KL-Divergence가 큰 기관(특이 데이터 보유)의 모델 업데이트가 전체 글로벌 모델을 오염시키지 않도록, 집계 시 해당 기관의 가중치($\alpha$)를 조절합니다.
개인화 연합학습(pFL): Divergence가 큰 기관에는 글로벌 모델을 그대로 적용하기보다, 해당 기관의 로컬 특성을 유지하는 '개인화 레이어'를 추가하여 최적의 성능을 발휘하게 합니다.

'연합학습 > 추론 성능' 카테고리의 다른 글

데이터 이질성 측정: 글로벌 평균 기준 발산 측정 vs. 클라이언트 간 쌍대 비교 (0)	2026.03.04
데이터 사이의 거리: KL 발산부터 Wasserstein 거리까지 (0)	2026.02.03
연합학습에서의 데이터 이질성(Non-IID) 정량화 (0)	2026.01.10
Non-IID 환경을 위한 병합 전략: FedFocal (0)	2025.12.01
연합학습 시 희소 데이터의 희석 문제 완화 방안 3가지 (0)	2025.11.18

현재글KL 발산 기반 Non-IID 정량 분석 및 연합학습 최적화

페드텐서 FedTensor

데이터의 보호와 활용 - 천천히, 제대로

이질적데이터, 신경망, 신경세포, 푸아송분포, ECC, 이산로그문제, 정보보호, 엔트로피, 사이버보안, ecdlp, 안전한집계, 트랜스포머, 베이지안추론, 뇌가소성, 차등정보보호, 보안다자간계산, 프라이버시, 데이터분석, secagg+, smpc, 데이터이질성, 인공지능, 비밀공유, 연합학습, non-iid, 차분프라이버시, 개인정보보호, kl발산, 타원곡선암호, 멱법칙,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

페드텐서 FedTensor