인공지능/모델 보안

보안 위협: 멤버십 추론 공격(Membership Inference Attack)

FedTensor 2025. 10. 30. 12:43

인공지능 모델의 보안 위협 중 하나인 멤버십 추론 공격에 대해 소개하고, 실제 적용 사례를 제시합니다.

멤버십 추론 공격 소개

멤버십 추론 공격은 특정 데이터가 AI 모델의 학습 데이터 세트에 포함되었는지 여부를 알아내려는 프라이버시 공격입니다.

1. 공격의 목표와 원리

  • 목표: 공격자는 자신이 가진 특정 데이터(예: A라는 사람의 의료 기록, B의 사진)가 이 모델을 학습시키는 데 사용되었는지 '예' 또는 '아니오'로 판별하는 것을 목표로 합니다.
  • 핵심 원리: AI 모델, 특히 딥러닝 모델은 학습 데이터에 과적합(overfitting)되는 경향이 있습니다. 즉, 모델은 자신이 학습한 '본 적 있는' 데이터와 '처음 보는' 데이터에 대해 미묘하게 다르게 반응합니다.
    • 학습 데이터(멤버): 모델이 이미 학습한 데이터가 입력되면, 모델은 매우 높은 확신도(confidence score)를 보이거나 낮은 손실(loss) 값을 반환하는 경향이 있습니다.
    • 비학습 데이터(비멤버): 모델이 처음 보는 데이터가 입력되면, 학습 데이터에 비해 상대적으로 낮은 확신도를 보입니다.

공격자는 이 미세한 '반응 차이'를 이용합니다. 모델의 출력 값(예: 예측 확률)을 보고 "이 모델은 이 데이터에 너무 익숙하게 반응하는데? 이건 학습 데이터였군!"이라고 추론하는 것입니다.

2. 왜 이것이 문제인가?

이 공격이 성공하면 심각한 프라이버시 침해로 이어질 수 있습니다.

  • 민감 정보 노출: 예를 들어, 특정 병원이 '암 환자' 데이터로 학습한 AI 모델을 공개했다고 가정해 보겠습니다. 공격자가 특정 인물(예: '홍길동')의 의료 기록을 입수하여 이 모델에 입력했을 때 '멤버(학습 데이터에 포함됨)'라는 결론이 나온다면, 이는 '홍길동'이 해당 병원의 암 환자 데이터 세트에 포함되어 있음을 의미하게 됩니다. 그 자체로 민감한 개인 정보가 유출되는 것입니다.

실제 공격 사례 및 주요 연구

멤버십 추론 공격은 이론적인 개념을 넘어 실제 다양한 모델에서 성공적으로 시연되었습니다.

1. 그림자 모델 (Shadow Model) 공격

가장 고전적이고 유명한 사례는 2017년 Shokri 등이 제안한 '그림자 모델' 기법입니다.

  • 공격 방식:
    1. 공격자는 타깃 모델(공격 대상)과 유사한 동작을 하는 '그림자 모델'을 여러 개 만듭니다.
    2. 이 그림자 모델들을 각기 다른 데이터(학습용/비학습용)로 학습시킵니다.
    3. 그림자 모델의 출력 값(확신도 등)을 수집하여, "어떤 출력이 '멤버'를 의미하고 어떤 출력이 '비멤버'를 의미하는지" 학습하는 '공격 모델(attack model)'을 따로 만듭니다. (일종의 이진 분류기)
    4. 준비가 끝나면, 공격자는 알고 싶은 데이터(예: '홍길동의 기록')를 실제 타깃 모델에 입력합니다.
    5. 타깃 모델의 출력 값을 받아, 자신이 훈련시킨 '공격 모델'에 넣어 '멤버'인지 '비멤버'인지 최종 판별합니다.
  • 영향: 이 연구는 상용 클라우드 AI 서비스(Google, Amazon의 이미지 분류 모델 등)를 대상으로도 멤버십 추론이 가능함을 입증하여 큰 파장을 일으켰습니다.

2. 거대 언어 모델(LLM)의 학습 데이터 추출

최근 GPT-3, GPT-4와 같은 거대 언어 모델(LLM)에서도 멤버십 추론 공격이 활발히 연구되고 있습니다. 이는 단순한 '멤버 여부' 확인을 넘어, 학습 데이터를 아예 '추출(extraction)'하는 형태로 진화했습니다.

  • 공격 방식:
    1. LLM은 인터넷의 방대한 텍스트를 학습합니다. 이 과정에서 개인정보(이름, 주소, 전화번호, 이메일), 저작권이 있는 코드 조각, 비밀 문구 등을 그대로 '암기(memorization)'하는 경우가 발생합니다.
    2. 공격자는 특정 프롬프트(prompt)를 입력하여 모델이 암기한 내용을 그대로 뱉어내도록 유도합니다. 예를 들어, "John Doe의 이메일 주소는"이라고 입력했을 때 모델이 `john.doe@example.com`이라는 실제 정보를 완성한다면, 이는 `john.doe@example.com`이라는 텍스트가 학습 데이터에 포함되었음을 강력하게 시사합니다.
  • 실제 사례 (Carlini et al., 2021): 스탠포드, 구글 등의 연구진은 GPT-2 모델을 대상으로 한 공격을 시연했습니다. 이들은 모델이 학습 데이터에 포함된 개인 식별 정보(PII), 특정 인물의 이름과 연락처, 뉴스 기사 문구, 심지어 특정 코드 저장소의 소스 코드까지 그대로 생성해 낼 수 있음을 보여주었습니다. 이는 해당 데이터가 모델의 '멤버'였음을 입증하는 것입니다.

3. 연합 학습(Federated Learning) 시스템 공격

연합 학습(FL)은 Gboard(구글 키보드)의 다음 단어 예측처럼, 사용자의 원본 데이터를 서버로 보내지 않고 각자의 기기에서 모델을 학습하는 프라이버시 보호 기술입니다. 하지만 이 역시 멤버십 추론 공격에 취약할 수 있습니다.

  • 공격 방식: 악의적인 서버나 다른 참여자가 특정 사용자의 기기에서 전송된 모델 업데이트 값(가중치)을 분석합니다. 만약 특정 업데이트 값이 사용자가 입력한 특정 문구(예: 매우 독특한 비밀번호나 문장)에 의해 크게 영향을 받았다면, 공격자는 해당 문구가 그 사용자의 데이터(즉, 학습 세트의 멤버)였다고 추론할 수 있습니다.

요약 및 방어

멤버십 추론 공격은 모델이 학습 데이터를 '지나치게 잘 기억하는' 현상을 악용하는 프라이버시 위협입니다.

이를 방어하기 위해 차분 프라이버시(Differential Privacy) 기술이 가장 표준적인 해법으로 사용됩니다. 이는 학습 과정이나 모델 출력에 의도적인 '노이즈(noise)'를 추가하여, 모델이 학습 데이터(멤버)와 비학습 데이터(비멤버)에 대해 보이는 반응의 차이를 통계적으로 구분할 수 없도록 '흐리게' 만드는 기술입니다. 또한, 과적합을 줄이는 정규화(regularization) 기법들도 방어에 도움이 됩니다.