연합학습/사이버 보안

FL-06. 연합학습의 사이버 보안을 위한 공격 경로 분석

FedTensor 2025. 10. 10. 15:57

1. 개요: 연합학습과 새로운 공격 표면

연합학습(Federated Learning, FL)은 데이터가 생성되는 위치(예: 모바일 기기, 병원)에서 직접 모델을 학습하여 개인정보를 중앙 서버로 전송하지 않고도 협력적으로 인공지능 모델을 구축하는 분산 학습 패러다임입니다. 데이터 프라이버시를 강화하는 혁신적인 기술로 주목받고 있지만, 전통적인 중앙 집중형 머신러닝과는 다른 새로운 공격 표면(Attack Surface)을 노출합니다.

 

연합학습의 보안을 이해하기 위해서는 데이터가 아닌 '모델 업데이트(가중치, 그래디언트)'가 네트워크를 통해 교환된다는 점을 인지해야 합니다. 공격자는 이 교환 과정의 각 단계에 개입하여 모델의 무결성(Integrity), 가용성(Availability), 기밀성(Confidentiality)을 위협할 수 있습니다.

 

본 문서는 연합학습의 전체 수명 주기를 ▲로컬 학습 ▲클라이언트-서버 통신 ▲중앙 서버 집계 ▲서버-클라이언트 배포의 4단계로 명확히 구분하여, 각 단계에서 발생 가능한 공격 시나리오를 체계적으로 분석하고 이에 대응하는 핵심 방어 전략을 제시하는 것을 목표로 합니다.

2. 연합학습의 위협 모델

공격 경로를 분석하기에 앞서, 공격자의 목표와 능력을 정의하는 위협 모델을 이해해야 합니다.

  • 공격 목표:
    • 모델 무독화 (Poisoning Attack): 글로벌 모델의 성능을 저하(가용성)시키거나, 특정 입력에 대해 의도된 오작동을 유발(무결성)합니다.
    • 백도어 삽입 (Backdoor Attack): 평상시에는 정상 작동하지만, 공격자가 의도한 특정 트리거(예: 이미지에 특정 스티커 부착, 텍스트에 특정 단어 포함)가 입력되면 모델이 특정 오답(예: '강아지' 이미지를 '고양이'로 인식)을 출력하도록 '뒷문'을 심는 공격입니다.
    • 추론 공격 (Inference Attack): 클라이언트들이 전송한 모델 업데이트를 분석하여 원본 학습 데이터의 민감한 정보를 역으로 추론합니다. (예: 특정인의 데이터가 학습에 사용되었는지 여부 - Membership Inference).
  • 공격자 유형:
    • 악의적인 클라이언트 (Malicious Client): 학습에 참여하는 클라이언트 중 일부가 공격 주체인 경우입니다. 가장 일반적인 위협 모델입니다.
    • 중앙 서버 (Compromised Server): 모델 집계를 담당하는 중앙 서버가 공격자에게 장악되거나, 서버 자체가 악의적인 경우입니다. 가장 강력하고 치명적인 위협입니다.
    • 중간자 (Man-in-the-Middle): 클라이언트와 서버 간의 통신 채널을 도청하거나 조작하는 네트워크상의 공격자입니다.

3. 단계별 공격 경로 및 시나리오 분석

경로 1: 로컬 학습 단계 (On-Client)

이 단계는 각 클라이언트가 자신의 로컬 데이터를 사용하여 모델을 학습하는 과정입니다. 공격은 악의적인 클라이언트 내부에서 시작됩니다.

  • 공격 벡터: 데이터 무독화 (Data Poisoning)
    • 설명: 악의적인 클라이언트가 의도적으로 변조되거나 잘못된 라벨이 붙은 데이터를 자신의 로컬 학습 데이터셋에 주입합니다.
    • 메커니즘: 예를 들어, 스팸 메일 필터 모델을 학습할 때, 악성 클라이언트는 스팸 메일을 '정상 메일'로 라벨링하여 학습시킵니다. 이렇게 오염된 데이터로 학습된 로컬 모델은 편향된 업데이트 값을 갖게 됩니다.
    • 영향: 이 편향된 업데이트가 중앙 서버로 전송되어 글로벌 모델에 집계되면, 전체 모델의 성능이 저하되거나 특정 유형의 스팸을 걸러내지 못하는 취약점이 생깁니다.

경로 2: 클라이언트 → 서버 통신 단계

로컬 학습을 마친 클라이언트가 모델 업데이트(가중치 또는 그래디언트)를 중앙 서버로 전송하는 과정입니다.

  • 공격 벡터 1: 모델 업데이트 무독화 (Model Update Poisoning)
    • 설명: 데이터 무독화보다 한 단계 발전된 공격입니다. 클라이언트는 정상 데이터로 학습하되, 서버로 보내기 직전의 모델 업데이트 값을 직접 조작합니다.
    • 메커니즘: 공격자는 글로벌 모델의 성능을 가장 효율적으로 저하할 수 있는 방향으로 그래디언트를 계산하여 전송합니다. 이는 소수의 악성 클라이언트만으로도 전체 모델에 큰 피해를 줄 수 있어 매우 효과적입니다.
    • 영향: 데이터 무독화보다 훨씬 정교하고 강력한 모델 성능 저하 및 백도어 삽입이 가능합니다.
  • 공격 벡터 2: 모델 업데이트 탈취 및 분석 (Update Interception & Analysis)
    • 설명: 중간자 공격자가 암호화되지 않은 통신 채널을 도청하여 클라이언트가 전송하는 모델 업데이트를 가로챕니다.
    • 메커니즘: 모델 업데이트는 원본 데이터를 포함하지 않지만, 데이터의 통계적 속성을 담고 있습니다. 공격자는 수집된 업데이트들을 분석하여 특정 데이터의 존재 여부나 속성을 추론하거나, 심지어 생성적 적대 신경망(GAN)과 같은 기술을 이용해 원본 데이터와 유사한 데이터를 복원할 수도 있습니다.
    • 영향: 연합학습의 핵심 목표인 프라이버시가 침해됩니다.

경로 3: 중앙 서버 집계 단계 (On-Server)

중앙 서버가 다수의 클라이언트로부터 수신한 모델 업데이트를 종합하여 하나의 글로벌 모델을 만드는 과정입니다.

  • 공격 벡터: 악의적인 서버 (Malicious or Compromised Server)
    • 설명: 연합학습의 '신뢰할 수 있는 조정자' 역할을 하는 중앙 서버가 공격자에게 장악된 최악의 시나리오입니다.
    • 메커니즘:
      • 전방위적 추론: 서버는 모든 클라이언트의 업데이트를 수신하므로, 이를 종합하여 특정 클라이언트를 표적으로 삼아 매우 정교한 데이터 추론 공격을 수행할 수 있습니다.
      • 집계 조작: 특정 악성 클라이언트의 업데이트에 더 높은 가중치를 부여하거나, 정상적인 업데이트를 의도적으로 무시하여 모델을 원하는 방향으로 오염시킬 수 있습니다.
      • 글로벌 모델 직접 조작: 집계가 완료된 글로벌 모델에 직접 백도어를 삽입하거나 성능을 저하한 뒤, 이를 정상적인 모델인 것처럼 위장하여 클라이언트들에게 배포합니다.
    • 영향: 시스템 전체의 무결성과 기밀성이 완전히 붕괴됩니다.

경로 4: 서버 → 클라이언트 통신 단계

업데이트된 글로벌 모델을 다시 각 클라이언트로 배포하는 과정입니다.

  • 공격 벡터: 글로벌 모델 조작 (Global Model Manipulation)
    • 설명: 중간자 공격자가 서버가 클라이언트에게 보내는 업데이트된 글로벌 모델을 가로채서 조작된 모델로 바꿔치기합니다.
    • 메커니즘: 공격자는 서버가 보낸 정상 모델 대신, 백도어가 삽입되거나 성능이 심각하게 저하된 모델을 클라이언트에게 전송합니다. 클라이언트는 이 모델이 신뢰할 수 있는 서버로부터 온 것이라 믿고 다음 라운드의 학습을 시작합니다.
    • 영향: 공격의 영향이 해당 통신을 가로챈 클라이언트에게 국한되지만, 다수의 클라이언트가 공격받으면 시스템 전체가 오염될 수 있습니다.

4. 공격 경로에 따른 방어 전략

각 공격 경로를 차단하기 위한 방어 메커니즘은 다음과 같이 매핑될 수 있습니다.

공격 경로 (단계)
주요 위협
방어 전략
로컬 학습
데이터/모델 업데이트 무독화
(악의적인 클라이언트)
강건한 집계 (Robust Aggregation): Krum, Trimmed Mean 등 이상치 탐지 기반 집계 알고리즘을 사용. 다른 업데이트와 편차가 큰 악의적 업데이트의 영향을 배제하거나 최소화하여 글로벌 모델을 보호합니다.
이상 탐지 (Anomaly Detection): 다른 업데이트와 통계적으로 크게 다른 비정상적인 업데이트를 서버가 탐지하고 필터링.
클라이언트↔서버 통신
도청을 통한 추론, 중간자 공격
보안 통신 (Secure Communication): TLS와 같은 표준 암호화 프로토콜을 적용하여 통신 채널의 기밀성과 무결성 보장.
서버 집계
서버를 통한 추론 및 조작
(악의적인 서버)
차분 프라이버시 (Differential Privacy): 업데이트에 통계적 노이즈를 추가하여 개별 데이터의 기여도를 마스킹하고 프라이버시를 강화.
보안 다자 계산 (Secure Aggregation): 동형암호, 다자간 계산(SMC)을 사용하여 서버가 개별 업데이트 값을 보지 못하고 암호화된 상태로 집계.
전체 시스템
중앙 서버 단일 실패 지점(SPOF)
완전 탈중앙화 연합학습 (Decentralized FL): 블록체인 등을 활용하여 중앙 서버 없이 P2P 방식으로 클라이언트 간 모델을 교환 및 집계.

5. 결론

연합학습은 데이터 프라이버시를 보호하는 강력한 접근 방식이지만, 결코 '보안 만병통치약'이 아닙니다. 오히려 분산된 특성으로 인해 클라이언트, 네트워크, 서버 전반에 걸쳐 다층적인 공격 경로가 존재합니다.

 

성공적인 연합학습 시스템을 구축하기 위해서는 모델의 정확성뿐만 아니라, 잠재적인 공격 경로를 명확히 이해하고 그에 맞는 방어 전략을 종합적으로 적용하는 '심층 방어(Defense-in-Depth)' 접근법이 필수적입니다. 차분 프라이버시로 기밀성을 강화하고, 강건한 집계 알고리즘으로 무결성을 확보하며, 보안 다자 계산으로 신뢰할 수 없는 서버의 위협에 대비하는 등, 다양한 기술을 조합하여 시스템의 전반적인 보안 신뢰도를 높여야 합니다. 앞으로 연합학습이 더욱 복잡한 모델과 이기종 환경으로 확장됨에 따라 위협은 더욱 지능화될 것이므로, 지속적인 보안 연구와 선제적인 방어 체계 구축이 중요합니다.