데이터 반출 없는 다기관 연합 인공지능 학습 플랫폼

차등정보보호 12

DP-01. 재식별 위험: 보이지 않는 위협

데이터의 가치와 공개의 역설데이터를 완벽하게 보호하는 가장 확실한 방법은 아무에게도 공개하지 않는 것입니다. 하지만 이는 데이터가 가진 무한한 잠재력을 사장시키는 것과 같습니다. 결국 데이터의 가치를 실현하기 위해 '공개'는 피할 수 없는 선택이며, 바로 그 순간 '재식별'이라는 피할 수 없는 위험이 뒤따릅니다. 이름이나 주민등록번호 같은 명백한 식별자를 제거하는 것만으로는 충분하지 않습니다. 언뜻 사소해 보이는 여러 정보가 조각 그림 맞추듯 결합되면, 결국 특정 개인을 가리키는 '재식별'의 화살이 될 수 있기 때문입니다. 이 위험이 얼마나 현실적인지, 구체적인 시나리오를 통해 살펴보겠습니다.평범한 통계에 숨겨진 위험어느 작은 마을에 1,000명이 살고 있습니다. 보건 당국이 이 마을의 희귀 질병 유병률..

DP-17. 가우시안 노이즈에서 프라이버시 손실 관계식 유도

프라이버시 손실 관계 수식 유도차등 정보보호에서 가우시안 메커니즘이 (ε, δ)-DP를 만족할 때, 다음 파라미터들 간의 관계는 어떻게 될까요?$ε$: 프라이버시 손실 예산$δ$: ε-DP가 깨질 수 있는 확률 (프라이버시 손실 예산 초과 확률)$S$: L2-민감도 (인접한 두 데이터셋 $D_1$, $D_2$에 대한 질의 함수 $f$의 결과값 차이를 L2-놈으로 정의할 때 이들 사이의 최댓값)$$S=\max_{D_1,D_2}||f(D_1)-f(D_2)||_2$$$σ$: 노이즈 표준편차프라이버시 손실은 데이터셋 $D_1$와 $D_2$(하나의 레코드만 차이나는 인접 데이터셋)에 대한 질의 함수 $f$의 결과 $o$가 나올 확률의 비율로 정의됩니다. 여기에 로그 함수를 적용하여 확률 변수 $L$을 다음과 같이..