정량화 2

연합학습에서의 데이터 이질성(Non-IID) 정량화

1. 개요연합학습의 가장 큰 난제는 클라이언트(기관)마다 데이터 분포가 다른 Non-IID(Non-Independent and Identically Distributed) 상황입니다. 중앙 서버가 원본 데이터를 볼 수 없는 보안 제약 하에서, 서버는 클라이언트들이 전송하는 모델 업데이트의 기하학적, 통계적 특성을 분석하여 이질성을 간접적으로 정량화할 수 있습니다.2. 서버 측 이질성 정량화 방법론2.0. 전제: 모델 업데이트의 정의와 등가성본 문서에서 언급하는 '모델 업데이트'는 구체적인 구현(FedAvg, FedSGD 등)에 따라 다음 세 가지 중 하나일 수 있으나, 이질성 정량화의 본질은 동일합니다.파라미터 ($w_t$): 학습이 완료된 로컬 모델의 가중치 자체파라미터 차이 ($\Delta w$): ..

DP-02. 재식별 위험의 정량화를 위한 실마리

재식별 위험, 어떻게 측정할 수 있을까?데이터가 공개될 때 우리가 느끼는 '왠지 모를 불안감'을 숫자로 측정할 수 있다면 어떨까요? 놀랍게도, 프라이버시 보호 기술은 그 막연한 불안감을 구체적인 '위험도'로 계산하고 관리하는 것을 목표로 합니다. 그 실마리는 '한 개인의 정보가 전체 결과에 미치는 영향'을 살펴보는 데 있습니다. 데이터베이스에 내 정보가 추가됨으로 인해 통계 결과가 크게 달라진다면, 역으로 그 결과를 통해 나를 특정하기 쉬워진다는 의미입니다. 반대로 내 정보가 추가되어도 결과에 거의 변화가 없다면, 나는 수많은 데이터 속에 안전하게 숨을 수 있습니다. 즉, 재식별 위험을 낮추려면 개인의 정보가 결과에 미치는 영향(차이)을 최소화해야 합니다.상황 1: N명의 데이터베이스 → 통계 결과 A상..