차등의 의미
차등 정보보호(Differential Privacy)에서 '차등(differential)'이라는 단어는 '차이(difference)'를 의미하며, 데이터베이스에 특정 개인의 데이터가 포함되거나 포함되지 않았을 때, 또는 변경되었을 때 발생하는 '결과의 차이를 제어'하는 기술의 핵심 개념을 직접적으로 나타냅니다.

이 용어는 2006년 컴퓨터 과학자 신시아 드워크(Cynthia Dwork)가 발표한 논문 "Differential Privacy"에서 처음으로 공식화되었습니다. 이 개념의 핵심은 데이터베이스에 대한 질의(query) 결과가 특정 개인의 데이터 유무, 또는 변경에 따라 크게 달라지지 않도록 보장하는 것입니다. 즉, 데이터베이스에서 한 사람의 정보를 추가, 삭제, 또는 변경하더라도 분석 결과에 미치는 영향(차이)이 거의 없도록 만드는 것이 목표입니다.
이는 데이터에 임의의 노이즈(noise)를 추가하여 달성되며, 이 노이즈의 크기는 개인 데이터의 유무나 변경에 따른 결과값의 차이를 감출 수 있을 만큼 크지만, 전체 데이터의 통계적 유의미성은 해치지 않을 만큼 작게 설정됩니다.
수학적 정의
ε-차등 정보보호 정의 (순수 차등 정보보호, Pure Differential Privacy)
어떤 무작위화 알고리즘 $M$이 ε-차등 정보보호를 만족한다는 것은, 단 하나의 데이터만 다른 임의의 두 인접 데이터셋 $D_1$과 $D_2$에 대해, 알고리즘 $M$이 출력할 수 있는 모든 결과의 집합 $S$에 속하는 특정 결과 $O$가 나올 확률이 다음 부등식을 만족한다는 의미입니다.
$$\frac{P\left(M\left(D_1\right)=O,\ O\in S\right)}{P\left(M\left(D_2\right)=O,\ O\in S\right)}\le e^{\epsilon}$$
- $M$: 데이터를 입력받아 무작위화된 결과를 출력하는 알고리즘
- $D_1$, $D_2$: 단 한 사람의 정보만 다른 데이터셋 (인접 데이터셋이라고 부름)
- $S$: 알고리즘이 출력할 수 있는 모든 결과값들의 집합
- $O$: 알고리즘이 출력하는 특정 값
- $P$: 특정 사건이 발생할 확률
- $ε$(엡실론): 프라이버시 손실 예산(Privacy Loss Budget)이라고 부르는 양의 실수. 이 값이 0에 가까울수록 프라이버시 보호 수준이 높습니다. $e^ε$ 값은 1에 가까워지며, 이는 두 인접 데이터셋에 대한 결과값의 확률 분포가 거의 동일하다는 것을 의미하기 때문입니다.
$S$에 속하는 모든 특정 값 $O$에 대해 위 부등식을 만족시켜야 합니다.
이 부등식이 의미하는 바는 다음과 같습니다. 데이터셋에서 한 사람의 데이터를 빼거나 더해도, 또는 변경해도 ($D_1$과 $D_2$의 차이), 알고리즘의 결과가 특정 값($O$)으로 나올 확률의 비율이 $e^ε$ 배를 넘지 않는다는 것입니다.
즉, 공격자가 어떤 결과값을 관찰하더라도, 그 결과가 특정 개인의 데이터가 포함된 데이터셋에서 나온 것인지, 아니면 포함되지 않은 데이터셋에서 나온 것인지 구별하기 매우 어렵다는 것을 수학적으로 보장합니다. ε 값이 작을수록 이 구별은 더욱 어려워집니다.
(ε, δ)-차등 정보보호로의 확장 (근사 차등 정보보호, Approximate Differential Privacy)
(ε,δ)-차등 정보보호는 순수 DP를 약간 완화한 현실적인 모델입니다. 여기서 델타(δ)는 '프라이버시 보장이 깨질 수 있는 아주 작은 확률'을 의미합니다. 대부분의 경우(1−δ의 확률로)에는 ε-차등 정보보호를 만족하지만, 아주 작은 확률(δ)로 프라이버시 손실이 ε을 초과할 수 있음을 허용합니다.
$$P(M(D_1)=O,\ O\in S)\le e^{\epsilon }\times P(M(D_2)=O,\ O\in S)+\delta$$
- $δ$(델타): ε-차등 정보보호의 엄격한 조건이 깨질 수 있는 작은 확률을 나타냅니다. 데이터베이스 크기의 역수보다 훨씬 작은 값(예: $10^{−6}$)으로 설정하여, 이러한 예외가 발생할 확률을 무시할 수 있을 정도로 낮게 만듭니다.
δ만큼의 예외를 허용함으로써, 순수 DP보다 적은 노이즈를 추가하면서도 높은 수준의 프라이버시를 보장할 수 있습니다. 이는 출력 결과가 고차원 벡터인 경우(예: 머신러닝 모델의 그래디언트, 여러 통계량을 동시에 발표)에서 데이터 유용성을 더 잘 보존하게 해줍니다.
'개인정보보호 강화 기술 > 차등 정보보호' 카테고리의 다른 글
| DP-05. 차등 정보보호의 핵심 개념: 인접 데이터셋 (0) | 2025.10.14 |
|---|---|
| DP-04. 데이터 처리 방식 및 구현 모델에 따른 분류 (0) | 2025.10.12 |
| DP-02. 재식별 위험의 정량화를 위한 실마리 (0) | 2025.10.08 |
| DP-01. 재식별 위험: 보이지 않는 위협 (0) | 2025.10.08 |
| DP-17. 가우시안 노이즈에서 프라이버시 손실 관계식 유도 (0) | 2025.10.08 |