인공지능/모델 보안

보안 위협: 모델 탈취/추출 공격(Model Stealing/Extraction Attack)

FedTensor 2025. 10. 29. 18:24

인공지능(AI) 모델, 특히 딥러닝 모델의 구조(architecture)와 파라미터(parameter, 가중치)는 모델의 핵심 지적 재산(IP)이자 성능을 좌우하는 전부입니다. 이러한 정보가 유출되는 것은 기업이나 연구 기관에 막대한 금전적, 전략적 손실을 초래할 수 있는 심각한 보안 위협입니다.

이러한 위협은 크게 '모델 탈취(Model Stealing)' 또는 '모델 추출(Model Extraction)' 공격의 범주에 속합니다.

1. 모델 구조 누출

모델 구조 누출은 AI 모델의 '청사진'을 훔치는 행위입니다. 이는 모델이 몇 개의 레이어로 구성되어 있는지, 각 레이어는 어떤 종류(e.g., Convolutional, Recurrent, Transformer)인지, 어떻게 연결되어 있는지 등의 하이퍼파라미터 정보를 알아내는 것을 의미합니다.

위협 및 영향

  • 지적 재산권 침해: 경쟁사가 막대한 연구개발(R&D) 비용 없이 유사한 성능의 모델을 더 쉽게 개발할 수 있습니다.
  • 적대적 공격의 기반: 모델의 정확한 구조를 알면, 해당 모델을 속이는 데 특화된 '적대적 샘플'을 훨씬 더 효율적으로 생성할 수 있습니다. 이는 모델의 신뢰성을 심각하게 훼손합니다.

발생 방식

주로 모델의 API를 통해 블랙박스 환경에서 발생합니다. 공격자는 의도적으로 조작된 다양한 입력을 모델에 전송하고, 반환되는 출력값(예: 신뢰도 점수)이나 응답 시간 등을 분석하여 모델의 내부 구조를 역으로 추론합니다.

2. 모델 파라미터 누출

모델 파라미터 누출은 모델 구조를 넘어, 수많은 학습 데이터를 통해 훈련된 '가중치(weights)'와 '편향(biases)' 값 자체를 탈취하는 것입니다. 이는 모델의 '뇌' 자체를 복제하는 것과 같습니다.

위협 및 영향

  • 완벽한 모델 복제: 공격자는 훈련 과정 없이도 원본 모델과 100% 동일한 성능을 내는 복제품을 즉시 손에 넣게 됩니다. 이는 막대한 학습 비용(GPU 자원, 시간)을 절도당하는 것입니다.
  • 학습 데이터 유출 (심각한 프라이버시 침해): 모델 파라미터에는 학습에 사용된 데이터의 정보가 '압축'되어 있습니다. '모델 역공학(Model Inversion)'이나 '멤버십 추론(Membership Inference)' 같은 공격을 통해, 공격자는 파라미터로부터 원본 학습 데이터(예: 개인의 얼굴 사진, 민감한 의료 기록, 사적인 대화 내용)를 복원하거나 특정 인물의 데이터가 학습에 사용되었는지 여부를 알아낼 수 있습니다.

발생 방식

  • 직접적인 데이터베이스 유출: 가장 고전적이지만 치명적인 방식입니다. 모델의 가중치 파일(`.pth`, `.h5`, `.weights` 등)이 저장된 서버가 해킹당하거나 내부자에 의해 유출되는 경우입니다.
  • 고급 모델 탈취 공격: API 쿼리를 수백만 번 이상 수행하여 얻은 입출력 쌍을 기반으로, 원본 모델의 파라미터를 거의 유사하게 근사하는 '대체 모델(Substitute Model)'을 훈련시키는 방식입니다.

3. 주요 발생 사례

모델 구조 및 파라미터 유출은 연구실 수준의 증명을 넘어 실제 세계에서도 큰 파장을 일으킨 사례가 있습니다.

사례 1: Meta의 LLaMA 모델 가중치 유출 (2023년 3월)

가장 유명하고 직접적인 파라미터 누출 사례입니다.

  • 사건 개요: Meta(구 페이스북)는 연구용으로 강력한 대규모 언어 모델(LLM)인 LLaMA를 출시했습니다. 접근 권한은 일부 학계 및 연구 기관에만 제한적으로 허용되었습니다.
  • 유출 방식: 출시된 지 약 1주일 만에, 모델의 전체 파라미터(가중치)가 포함된 토렌트(Torrent) 링크가 4chan 등 익명 커뮤니티를 통해 유포되었습니다. 이는 공격이 아닌 내부자 혹은 접근 권한을 가진 연구자의 실수나 의도적 유출로 추정됩니다.
  • 영향:
    • '오픈소스' LLM의 폭발적 증가: 유출된 LLaMA 파라미터를 기반으로 Alpaca, Vicuna, Koala 등 수많은 미세조정(fine-tuning) 모델이 탄생했습니다.
    • 양면성: AI 연구의 민주화에는 기여했지만, 동시에 Meta의 핵심 지적 재산이 통제 불가능하게 확산되었습니다. 또한 악의적인 사용자가 강력한 모델을 검열 없이 사용할 수 있게 되는 보안 위협을 초래했습니다.

사례 2: "Knockoff Nets" (모델 탈취 공격 연구 - 2019년)

이 사례는 특정 기업의 유출 사건은 아니지만, 상용 서비스가 얼마나 취약한지 증명한 대표적인 연구입니다.

  • 연구 개요: 코넬 대학 연구팀은 Amazon, Google 등이 제공하는 MLaaS(Machine Learning as a Service) 플랫폼을 대상으로 '모델 탈취(Model Stealing)' 공격을 시연했습니다.
  • 공격 방식: 이들은 피해 모델(Victim Model)의 API에 쿼리를 보내고, 반환되는 예측값(신뢰도 점수 등)을 수집했습니다. 이 데이터를 '대체 데이터'로 사용하여, 피해 모델의 구조와 파라미터를 모방하는 '대체 모델(Knockoff Model)'을 훈련시켰습니다.
  • 영향: 제한된 쿼리만으로도 상용 유료 AI 모델의 성능을 거의 90% 이상 복제할 수 있음을 증명했습니다. 이는 API 기반 AI 서비스의 근본적인 비즈니스 모델 자체를 위협할 수 있음을 보여주었습니다.

사례 3: GPT-2 학습 데이터 추출 (파라미터의 위험성 - 2020년)

이는 파라미터가 유출되었을 때 발생할 수 있는 '프라이버시 침해'를 극명하게 보여준 사례입니다.

  • 연구 개요: Google 및 여러 대학의 연구원들(Carlini 등)은 OpenAI의 GPT-2 모델이 학습 데이터를 얼마나 '기억'하고 있는지 분석했습니다.
  • 공격 방식: 연구팀은 모델 파라미터에 접근(화이트박스)하거나, 혹은 단순히 모델에 반복적인 프롬프트를 입력(블랙박스)하는 것만으로 GPT-2가 학습 중에 '암기'해버린 실제 데이터 조각을 그대로 출력하게 만들었습니다.
  • 결과: 인터넷에서 수집된 개인정보(이름, 주소, 전화번호), 비즈니스 기밀, 특정 소설의 문구 등이 모델에서 그대로 추출되었습니다. 이는 모델 파라미터가 민감한 원본 데이터를 포함하고 있음을 의미하며, 파라미터 유출이 곧 심각한 데이터 유출로 이어질 수 있음을 증명했습니다.