데이터 이질성 측정: 글로벌 평균 기준 발산 측정 vs. 클라이언트 간 쌍대 비교

연합학습/추론 성능

데이터 이질성 측정: 글로벌 평균 기준 발산 측정 vs. 클라이언트 간 쌍대 비교

FedTensor 2026. 3. 4. 09:59

연합학습에서 Non-IID 데이터로 인한 모델 성능 저하를 막기 위해 가중치나 그래디언트의 발산을 측정하는 것은 매우 핵심적인 접근입니다. 코사인 유사도 기반 측정 방식으로 글로벌 평균 기준 발산 측정과 클라이언트 간 쌍대 비교가 있는데 이 둘은 구조가 다른 만큼 각각 뚜렷한 특징과 장단점을 가지고 있습니다.

1. 글로벌 평균 기준 발산 측정 (Global Mean-Centric)

전체 클라이언트들의 가중치 평균인 글로벌 모델 $\bar{W}$를 구하고, 각 클라이언트 $W_i$가 이 평균과 얼마나 유사한지 계산하여 평균을 내는 방식입니다.

장점:

연산 효율성 ($O(N)$): 클라이언트 수가 $N$일 때, 글로벌 평균을 한 번 구하고 $N$번의 코사인 유사도만 계산하면 되므로 시스템 부하가 매우 적습니다.
글로벌 업데이트 방향성 반영: 연합학습의 기본인 FedAvg 알고리즘 자체가 평균을 취하는 방식입니다. 이 지표는 실제 글로벌 모델이 업데이트될 방향성($\bar{W}$)에서 개별 클라이언트가 얼마나 이탈해 있는지, 즉 '전체 군집체' 기준의 이질성을 직관적으로 보여줍니다.

단점:

평균의 함정 (왜곡 가능성): 극단적인 이상치 데이터를 가졌거나 데이터 양이 압도적으로 많은 특정 노드가 있다면, $\bar{W}$ 자체가 이미 편향될 수 있습니다. 이 경우 정상적인 분포를 가진 기관들의 발산 값이 오히려 크게 측정되는 왜곡이 발생합니다.
클러스터링 구조 파악 불가: 예를 들어 클라이언트들이 A라는 특성 그룹과 B라는 특성 그룹으로 양분되어 있을 때, 평균 $\bar{W}$는 그 중간 어디쯤에 위치하게 됩니다. 이 방식만으로는 "데이터가 두 그룹으로 나뉘어 있다"는 세부적인 이질성 지형을 파악할 수 없습니다.

2. 클라이언트 간 쌍대 비교 (Pairwise Comparison)

모든 클라이언트 쌍 $(W_i, W_j)$에 대해 코사인 유사도를 각각 계산하고 이들의 평균을 구하는 방식입니다.

장점:

고해상도 이질성 파악: 개별 노드들 사이의 1:1 관계를 직접 비교하기 때문에 데이터 이질성의 구체적인 지형도를 그릴 수 있습니다. 어떤 곳들이 서로 유사한지, 어떤 곳이 완전히 동떨어져 있는지 정확히 짚어낼 수 있습니다.
평균 왜곡에 대한 강건함: 글로벌 평균이라는 가상의 중심점을 거치지 않으므로, 소수의 악의적이거나 극단적인 노드 때문에 전체 이질성 지표가 흔들리는 현상을 방지할 수 있습니다.

단점:

연산 비용 증가 ($O(N^2)$): 전체 클라이언트 수 $N$에 대해 조합 연산인 $\frac{N(N-1)}{2}$번의 고차원 벡터 내적을 수행해야 합니다. 참여자가 수백만 대에 이르는 환경에서는 중앙 서버에 엄청난 병목을 일으킬 수 있습니다.

어떤 방식을 선택해야 할까요?

가장 중요한 기준은 참여하는 노드의 규모와 목적입니다.

스마트폰이나 개인 디바이스가 수만~수십만 대 단위로 참여하는 기기 간(Cross-Device) 환경이라면 연산량 한계 때문에 무조건 1번 방식을 써야 합니다. 하지만 기관 간 연합학습(Cross-Silo FL)처럼 참여 클라이언트의 수가 수십 개 수준으로 제한적이고, 각 참여 기관 데이터의 특성과 보안성을 정밀하게 파악하는 것이 최우선인 환경에서는 2번 방식이 압도적으로 유리합니다. $O(N^2)$의 연산 비용도 기관 수가 적다면 충분히 감당할 수 있는 범위입니다.

특히 2번 방식을 통해 도출된 노드 간 쌍대 비교 매트릭스(Pairwise Similarity Matrix)를 확보하면, 유사한 특성을 가진 기관들끼리 묶어주는 다중 클러스터 연합학습(Clustered FL) 이나, 다른 기관들과 이질성이 비정상적으로 높은 기관의 업데이트를 차단하는 악의적 공격 방어(Byzantine Robustness) 메커니즘으로 아주 자연스럽게 기술을 확장할 수 있습니다.

'연합학습 > 추론 성능' 카테고리의 다른 글

KL 발산 기반 Non-IID 정량 분석 및 연합학습 최적화 (0)	2026.02.22
데이터 사이의 거리: KL 발산부터 Wasserstein 거리까지 (0)	2026.02.03
연합학습에서의 데이터 이질성(Non-IID) 정량화 (0)	2026.01.10
Non-IID 환경을 위한 병합 전략: FedFocal (0)	2025.12.01
연합학습 시 희소 데이터의 희석 문제 완화 방안 3가지 (0)	2025.11.18

현재글데이터 이질성 측정: 글로벌 평균 기준 발산 측정 vs. 클라이언트 간 쌍대 비교

페드텐서 FedTensor

데이터의 보호와 활용 - 천천히, 제대로

사이버보안, 연합학습, 인공지능, secagg+, 신경세포, 뇌가소성, 신경망, 데이터분석, non-iid, 푸아송분포, 데이터이질성, 베이지안추론, 타원곡선암호, kl발산, 멱법칙, 정보보호, 이질적데이터, 차분프라이버시, smpc, 보안다자간계산, 엔트로피, 프라이버시, ecdlp, 차등정보보호, 비밀공유, 트랜스포머, 이산로그문제, 태동검사, ECC, 개인정보보호,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

페드텐서 FedTensor