데이터 반출 없는 다 기관 협업 인공지능 학습 인프라

개인정보보호 6

개인정보 보호 가이드라인과 차등 정보보호 기술의 시너지

서론​데이터가 21세기의 원유라면, 개인정보는 지켜야 할 가장 중요한 자산입니다. 빅데이터와 AI 시대는 이 두 가치가 충돌하는 '데이터 패러독스'의 시대이기도 합니다. 이러한 딜레마 속에서 대한민국의 개인정보보호위원회(이하 '개인정보위')는 '보호'와 '활용'의 균형을 맞추기 위한 정책적 방향성을 가이드라인을 통해 제시하고 있습니다. 그러나 정책적 목표만으로는 안전한 데이터 생태계를 구축할 수 없습니다. 본 문서는 개인정보위 가이드라인이 제시하는 '안전한 활용'이라는 정책적 이상과 '재식별 위험'이라는 기술적 현실 사이의 간극을 분석하고, '차등 정보보호' 기술이 어떻게 그 간극을 메우는 수학적 신뢰의 다리가 될 수 있는지 그 가능성을 제시하고자 합니다.​1부: 개인정보위 가이드라인의 정책적 함의와 과..

NIST 개인정보보호 프로그램(PEP)과 차등 정보보호 가이드라인 분석

1. NIST 개인정보보호 엔지니어링 프로그램(PEP) 개요미국 국립표준기술연구소(NIST)는 개인정보보호 엔지니어링 프로그램(Privacy Engineering Program, PEP)을 운영하고 있습니다. 이 프로그램의 목표는 신뢰할 수 있는 정보 시스템의 개발을 지원하는 것입니다. 이 프로그램의 핵심 목표는 측정 과학과 시스템 엔지니어링 원칙을 적용하여 개인정보보호 위험을 관리하고 완화할 수 있는 프레임워크, 지침, 도구 및 표준을 개발하고 보급하는 것입니다.​주요 활동은 다음과 같습니다.위험 관리: 조직이 개인정보보호 문제를 식별, 평가, 관리하고 개인에게 미치는 부정적인 영향을 줄일 수 있도록 지원합니다. 대표적인 결과물이 'NIST 개인정보보호 프레임워크(NIST Privacy Framewor..

FL-03. 보안 모델: 일반적 정의와 연합학습에서의 적용

모든 디지털 시스템의 신뢰는 견고한 보안 설계에서 시작됩니다. 본 문서에서는 전통적인 보안 모델의 개념을 살펴보고, 데이터가 분산된 '연합 학습' 환경에서는 어떤 독특한 보안 모델이 요구되는지, 그리고 이를 강화하기 위한 기술은 무엇인지 심층적으로 알아봅니다. 1. 보안 모델(Security Model)의 일반적인 정의보안 모델이란 특정 시스템에서 '누가, 무엇을, 어떻게 할 수 있는가'를 정의하는 보안 정책(Security Policy)을 명문화하고 구현하기 위한 설계도입니다. 이는 시스템이 어떻게 보안 목표(기밀성, 무결성, 가용성 등)를 달성할 것인지를 명확하게 정의하는 규칙과 관행의 집합입니다. 보안 모델의 핵심 목적은 다음과 같습니다.정책 명문화: "어떤 주체(Subject)가 어떤 객체(Ob..

DP-02. 재식별 위험의 정량화를 위한 실마리

재식별 위험, 어떻게 측정할 수 있을까?데이터가 공개될 때 우리가 느끼는 '왠지 모를 불안감'을 숫자로 측정할 수 있다면 어떨까요? 놀랍게도, 프라이버시 보호 기술은 그 막연한 불안감을 구체적인 '위험도'로 계산하고 관리하는 것을 목표로 합니다. 그 실마리는 '한 개인의 정보가 전체 결과에 미치는 영향'을 살펴보는 데 있습니다. 데이터베이스에 내 정보가 추가됨으로 인해 통계 결과가 크게 달라진다면, 역으로 그 결과를 통해 나를 특정하기 쉬워진다는 의미입니다. 반대로 내 정보가 추가되어도 결과에 거의 변화가 없다면, 나는 수많은 데이터 속에 안전하게 숨을 수 있습니다. 즉, 재식별 위험을 낮추려면 개인의 정보가 결과에 미치는 영향(차이)을 최소화해야 합니다.상황 1: N명의 데이터베이스 → 통계 결과 A상..

DP-01. 재식별 위험: 보이지 않는 위협

데이터의 가치와 공개의 역설데이터를 완벽하게 보호하는 가장 확실한 방법은 아무에게도 공개하지 않는 것입니다. 하지만 이는 데이터가 가진 무한한 잠재력을 사장시키는 것과 같습니다. 결국 데이터의 가치를 실현하기 위해 '공개'는 피할 수 없는 선택이며, 바로 그 순간 '재식별'이라는 피할 수 없는 위험이 뒤따릅니다. 이름이나 주민등록번호 같은 명백한 식별자를 제거하는 것만으로는 충분하지 않습니다. 언뜻 사소해 보이는 여러 정보가 조각 그림 맞추듯 결합되면, 결국 특정 개인을 가리키는 '재식별'의 화살이 될 수 있기 때문입니다. 이 위험이 얼마나 현실적인지, 구체적인 시나리오를 통해 살펴보겠습니다.평범한 통계에 숨겨진 위험어느 작은 마을에 1,000명이 살고 있습니다. 보건 당국이 이 마을의 희귀 질병 유병률..

DP-17. 가우시안 노이즈에서 프라이버시 손실 관계식 유도

프라이버시 손실 관계 수식 유도차등 정보보호에서 가우시안 메커니즘이 (ε, δ)-DP를 만족할 때, 다음 파라미터들 간의 관계는 어떻게 될까요?$ε$: 프라이버시 손실 예산$δ$: ε-DP가 깨질 수 있는 확률 (프라이버시 손실 예산 초과 확률)$S$: L2-민감도 (인접한 두 데이터셋 $D_1$, $D_2$에 대한 질의 함수 $f$의 결과값 차이를 L2-놈으로 정의할 때 이들 사이의 최댓값)$$S=\max_{D_1,D_2}||f(D_1)-f(D_2)||_2$$$σ$: 노이즈 표준편차프라이버시 손실은 데이터셋 $D_1$와 $D_2$(하나의 레코드만 차이나는 인접 데이터셋)에 대한 질의 함수 $f$의 결과 $o$가 나올 확률의 비율로 정의됩니다. 여기에 로그 함수를 적용하여 확률 변수 $L$을 다음과 같이..