개인정보보호 강화 기술/차등 정보보호

DP-02. 재식별 위험의 정량화를 위한 실마리

FedTensor 2025. 10. 8. 12:18

재식별 위험, 어떻게 측정할 수 있을까?

데이터가 공개될 때 우리가 느끼는 '왠지 모를 불안감'을 숫자로 측정할 수 있다면 어떨까요? 놀랍게도, 프라이버시 보호 기술은 그 막연한 불안감을 구체적인 '위험도'로 계산하고 관리하는 것을 목표로 합니다.

그 실마리는 '한 개인의 정보가 전체 결과에 미치는 영향'을 살펴보는 데 있습니다.

데이터베이스에 내 정보가 추가됨으로 인해 통계 결과가 크게 달라진다면, 역으로 그 결과를 통해 나를 특정하기 쉬워진다는 의미입니다. 반대로 내 정보가 추가되어도 결과에 거의 변화가 없다면, 나는 수많은 데이터 속에 안전하게 숨을 수 있습니다.

즉, 재식별 위험을 낮추려면 개인의 정보가 결과에 미치는 영향(차이)을 최소화해야 합니다.

  • 상황 1: N명의 데이터베이스 → 통계 결과 A
  • 상황 2: (N+1)명의 데이터베이스 (내 정보 추가) → 통계 결과 B (A와의 차이 발생)

이러한 결과의 차이를 통제할 수 있다면, 우리는 재식별 위험을 관리할 수 있게 됩니다. 그렇다면 구체적으로 어떻게 그 차이를 줄일 수 있을까요?

해결책: '그럴듯한 부인'을 위한 확률적 장치

"마리화나를 피운 적이 있습니까?"와 같이 매우 민감한 질문에 답변해야 하는 상황을 상상해 봅시다. 모든 사람이 진실만을 답한다면, 특정인의 답변은 곧 그의 민감한 정보가 됩니다.

 

이때 '차등 정보보호(Differential Privacy)'라는 개념이 해법을 제시합니다. 핵심은 답변에 의도적인 노이즈(noise), 즉 무작위성을 섞는 것입니다. 예를 들어, 응답자에게 다음과 같은 규칙을 따르도록 하는 것입니다.

  1. 동전을 던집니다.
  2. 앞면이 나오면 무조건 진실을 말합니다.
  3. 뒷면이 나오면 다시 동전을 던져서, 그 결과에 따라 "예" 또는 "아니오"로 답합니다. (진실과 무관하게)

이런 장치를 도입하면, 설령 누군가 "예"라고 답했더라도 그것이 정말 경험이 있어서인지, 아니면 동전 던지기 규칙에 따른 우연의 결과인지 아무도 확신할 수 없습니다. 개인은 '나는 규칙에 따라 답했을 뿐'이라고 그럴듯하게 부인(Plausible Deniability)할 수 있는 안전장치를 얻게 됩니다.

위험의 정량화: 확률의 비율로 답을 찾다

바로 이 확률적 장치가 재식별 위험을 재는 '눈금'이 됩니다. 우리는 특정 응답이 나왔을 때, 그것이 진실에서 비롯되었을 확률과 거짓에서 비롯되었을 확률의 비율을 통해 위험도를 정밀하게 측정할 수 있습니다.

$$\frac{P\left(\text{응답}= \text{"예"}\mid \text{진실}= \text{"예"}\right)}{P\left( \text{응답}= \text{"예"}\mid \text{진실}= \text{"아니오"}\right)}$$

  • 이 비율이 매우 크다면? "예"라는 응답은 진실이 "예"일 때 나올 가능성이 압도적으로 높다는 뜻입니다. 응답을 통해 실제 정보를 거의 확신할 수 있으므로 재식별 위험이 큽니다.​​
  • 이 비율이 1에 가깝다면? "예"라는 응답이 진실에서 비롯되었을 가능성과 거짓에서 비롯되었을 가능성이 거의 비슷하다는 의미입니다. 응답만으로는 실제 정보를 추측하기 어려우므로 재식별 위험이 작습니다.​

이처럼 프라이버시 보호 기술은 단순히 정보를 가리는 것을 넘어, 정보 공개 시 발생할 수 있는 위험의 정도를 수학적으로 계산하고 이를 사전에 설정한 안전한 수준 이하로 통제하는 것을 목표로 합니다. 바로 이 지점에서 우리는 막연했던 불안감을 구체적인 '숫자'로 관리할 수 있는 실마리를 찾을 수 있습니다. 이는 개인의 존엄성을 지키면서 데이터의 사회적 가치를 안전하게 활용하기 위한, 우리 시대의 필수적인 기술적 약속이라 할 수 있습니다.