인공지능/모델 보안

공격 유형 비교: 모델 역공격, 멤버십 추론 공격, 모델 탈취/추출 공격

FedTensor 2025. 10. 30. 13:07

모델 역공격과 멤버십 추론은 모델의 '학습 데이터'를 표적으로 삼아 프라이버시를 침해하는 반면, 모델 탈취는 '모델 자체'를 표적으로 삼아 지적 재산을 훔치는 공격입니다.

다음은 세 가지 공격 유형에 대한 비교 설명입니다.

공격 유형별 비교 요약

공격 유형 모델 역공격
(Model Inversion)
멤버십 추론 공격
(Membership Inference)
모델 탈취/추출
(Model Stealing/Extraction)
주요 목표 학습 데이터의 특징 또는 원본 복원 특정 데이터가 학습에 사용되었는지 확인
원본 모델과 동일한 성능의 모델 복제
공격 대상 모델의 출력값, 신뢰도 점수 모델의 신뢰도 점수 차이
모델 API의 입력/출력 (질의-응답)
핵심 침해 데이터 프라이버시 데이터 프라이버시 지적 재산(IP)

1. 모델 역공격 (Model Inversion Attack)

모델 역공격은 모델의 출력 결과로부터 학습에 사용된 데이터를 역으로 추정하여 복원하려는 공격입니다.

  • 주요 질문: "이 모델이 '김철수'라고 99% 확신한다면, 모델이 학습한 '김철수'의 평균적인 얼굴(데이터)은 어떻게 생겼을까?"
  • 작동 방식: 공격자는 특정 레이블(예: '김철수')에 대해 모델이 가장 높은 신뢰도를 보이도록 입력값을 반복적으로 최적화합니다. 이 과정을 통해 원본 학습 데이터와 유사하거나 원본의 민감한 특징을 포함하는 데이터를 재구성해낼 수 있습니다.
  • 예시: 얼굴 인식 모델에서 특정 인물의 이름을 입력하여 그 사람의 얼굴 이미지를 복원하거나, 의료 AI에서 특정 질병을 가장 잘 나타내는 환자의 의료 이미지 특징을 복원하는 경우입니다.
  • 핵심: 데이터의 재구성(Reconstruction)이 목적입니다.

2. 멤버십 추론 공격 (Membership Inference Attack)

멤버십 추론 공격은 공격자가 가진 특정 데이터가 모델의 학습 데이터셋에 포함되었는지 여부를 알아내는 공격입니다.

  • 주요 질문: "이 환자(A)의 의료 기록이 이 AI 모델을 학습시키는 데 사용되었는가?"
  • 작동 방식: 모델은 자신이 학습한 데이터(Member)에 대해 학습하지 않은 데이터(Non-member)보다 더 높은 신뢰도(Confidence) 점수를 출력하는 경향이 있습니다. (일종의 과적합 현상 이용) 공격자는 이 신뢰도 점수의 미세한 차이를 분석하여 특정 데이터의 학습 포함 여부를 추론합니다.
  • 예시: 병원에서 공개한 질병 예측 모델에 특정인의 민감한 의료 기록을 입력해보고, 모델의 반응(신뢰도)을 분석하여 그 사람의 데이터가 학습에 쓰였는지(즉, 그 병원 환자인지)를 알아내는 경우입니다.
  • 핵심: 데이터의 포함 여부(Presence)를 확인하는 것이 목적입니다.

3. 모델 탈취 또는 추출 공격 (Model Stealing / Extraction Attack)

모델 탈취 공격은 원본 모델의 내부 구조나 가중치를 모르더라도, API 등을 통해 모델의 기능 자체를 훔쳐(복제하여) 유사한 성능의 모델을 만드는 공격입니다.

  • 주요 질문: "수많은 질문과 답변을 수집해서, 유료 API로 제공되는 이 모델과 똑같이 동작하는 나만의 공짜 모델을 만들 수 있을까?"
  • 작동 방식: 공격자는 (주로 Black-box 상태인) 대상 모델 API에 수많은 질의(입력)를 보내고 그 결과를(출력/예측) 수집합니다. 이렇게 모은 '입력-출력' 쌍을 새로운 학습 데이터로 사용하여 자신만의 '대체 모델' 또는 '복제 모델'을 학습시킵니다.
  • 예시: 유료로 제공되는 고성능 번역 API나 주가 예측 API에 수많은 요청을 보내 데이터를 축적한 뒤, 이를 학습하여 거의 동일한 성능을 내는 자체 모델을 만들어내는 경우입니다.
  • 핵심: 모델의 지적 재산(IP)을 훔치는 것이 목적입니다.