데이터 반출 없는 다 기관 협업 인공지능 학습 인프라

연합학습 31

FL-07. 방어 전략: 견고한 집계 전략들

연합학습에서 견고한 집계 전략(Robust Aggregation Strategy)은 악의적인 클라이언트가 전송하는 비정상적인 업데이트(Outlier)로부터 글로벌 모델을 보호하기 위한 서버 측 방어 기법입니다. 기본적인 FedAvg는 모든 클라이언트의 업데이트를 '단순 평균'하기 때문에, 하나의 강력한 악성 업데이트만으로도 전체 글로벌 모델이 쉽게 오염될 수 있습니다(포이즈닝 공격). 견고한 집계 전략들은 "정직한 클라이언트의 업데이트는 (고차원 공간에서) 서로 유사한 경향을 보일 것이고, 악의적인 업데이트는 이들로부터 멀리 떨어져 있을 것"이라는 핵심 가정을 기반으로, 이러한 이상치를 식별하고 그 영향을 최소화하거나 완전히 제거합니다. 주요 견고한 집계 전략들은 다음과 같습니다.1. 절삭 평균 (Tri..

SecAgg+ 프로토콜에서 악의적인 서버의 공격 시나리오

클라이언트별로 다른 조작된 이탈 목록을 보냄으로써 특정 온라인 상태의 클라이언트를 대상으로 모델 원본 파라미터를 복원하는 것이 가능한가? 만약 프로토콜에 추가적인 안전장치가 없다면, 이러한 공격은 실제로 가능하며 특정 클라이언트의 모델 원본을 복원할 수 있습니다.이 공격은 '선택적 참여자 목록 공격(Selective Client List Attack)'이라고 볼 수 있으며, 악의적인 서버(Malicious Server)가 시도할 수 있는 대표적인 공격 시나리오입니다.악의적인 서버의 공격 시나리오서버가 온라인 상태인 클라이언트 $u$의 모델 $x_u$를 탈취하려고 한다고 가정해 보겠습니다. 이 서버는 또 다른 온라인 클라이언트 $v$를 이 공격에 이용합니다.서버의 이중 플레이: 서버는 $u$와 $v$에게 ..

SecAgg+ 프로토콜에서 서버와 클라이언트 간 상태 확인 절차

클라이언트는 다른 클라이언트의 상태를 알아야만 올바른 키를 서버에 전송할 수 있습니다. 이는 SecAgg+ 프로토콜의 중요한 단계이며, 서버가 중앙에서 조정자(Coordinator) 역할을 수행함으로써 가능해집니다. 클라이언트가 서로의 상태를 직접 확인하는 것이 아니라, 서버가 상태를 판별하고 그 결과를 온라인 클라이언트들에게 알려주는 방식으로 동작합니다.서버와 클라이언트 간 상태 확인 절차프로토콜의 '이탈자 처리' 단계는 다음과 같은 명확한 순서로 진행됩니다.1단계: 마스킹된 값 제출 및 대기모든 클라이언트는 자신의 마스킹된 모델 업데이트($y_u$)를 서버에 전송합니다. 서버는 정해진 시간 동안 클라이언트들의 제출을 기다립니다.2단계: 서버의 상태 판별 및 목록 생성제출 시간이 마감되면, 서버는 성공..

SecAgg+ 프로토콜에서 개별 클라이언트의 모델 원본 복원이 가능한가?

서버는 개별 클라이언트의 모델 원본을 복원할 수 없습니다. SecAgg+ 프로토콜의 핵심적인 보안 설계가 바로 그 지점에 있습니다. 서버가 특정 클라이언트와 관련된 키 정보들을 수집하는 것은 사실이지만, 그 정보는 전체 합산 값에서 불필요한 마스크를 제거하기 위한 최소한의 정보일 뿐, 개별 클라이언트의 원본 값을 역산하기에는 불충분합니다. 왜 그런지 클라이언트가 온라인(online) 상태일 때와 이탈(dropped) 상태일 때로 나누어 살펴보겠습니다.1. 대상 클라이언트가 '온라인(Online)' 상태일 경우가장 중요한 시나리오입니다. 클라이언트 $u$가 정상적으로 참여하여 마스킹된 값 $y_u$를 서버에 제출했다고 가정해 봅시다. 서버가 $u$의 원본 모델 $x_u$를 복원하려면 $y_u$에서 $u$가..

연합학습의 안전한 집계를 위한 SecAgg+ 프로토콜

SecAgg+는 다수의 클라이언트(예: 스마트폰)가 각자 학습한 모델 업데이트 값(가중치)을 서버에 전송할 때, 서버가 개별 클라이언트의 값을 알 수 없도록 암호화하면서도 전체 합산 결과는 정확하게 얻을 수 있도록 하는 프로토콜입니다. 이 과정에서 일부 클라이언트가 통신 문제 등으로 중도에 이탈하더라도 전체 집계 과정이 안전하게 완료될 수 있도록 설계된 것이 핵심입니다. 보안 모델 및 가정:SecAgg+는 주로 반-정직(Semi-honest) 위협 모델을 가정합니다. 이는 프로토콜에 참여하는 모든 당사자가 프로토콜의 명세를 그대로 따르지만, 중간 계산 결과를 엿보아 추가적인 정보를 얻으려고 시도할 수 있다는 것을 의미합니다. 이러한 가정 하에 SecAgg+는 개별 클라이언트의 모델 업데이트에 대한 기밀성..

FL-06. 연합학습의 사이버 보안을 위한 공격 경로 분석

1. 개요: 연합학습과 새로운 공격 표면연합학습(Federated Learning, FL)은 데이터가 생성되는 위치(예: 모바일 기기, 병원)에서 직접 모델을 학습하여 개인정보를 중앙 서버로 전송하지 않고도 협력적으로 인공지능 모델을 구축하는 분산 학습 패러다임입니다. 데이터 프라이버시를 강화하는 혁신적인 기술로 주목받고 있지만, 전통적인 중앙 집중형 머신러닝과는 다른 새로운 공격 표면(Attack Surface)을 노출합니다. 연합학습의 보안을 이해하기 위해서는 데이터가 아닌 '모델 업데이트(가중치, 그래디언트)'가 네트워크를 통해 교환된다는 점을 인지해야 합니다. 공격자는 이 교환 과정의 각 단계에 개입하여 모델의 무결성(Integrity), 가용성(Availability), 기밀성(Confident..

FL-05. 연합학습의 사이버 보안을 위한 공격 표면 분석

1. 개요연합학습(Federated Learning, FL)은 데이터를 중앙 서버로 전송하지 않고, 분산된 각 클라이언트(예: 스마트폰, 병원)에서 로컬로 모델을 학습한 뒤, 모델의 변경사항(가중치, 그래디언트 등)만을 서버로 보내 집계하는 분산형 머신러닝 패러다임입니다. 이 방식은 데이터 프라이버시를 근본적으로 강화할 수 있어 각광받고 있지만, 동시에 기존의 중앙 집중식 학습 환경과는 다른 독특하고 복잡한 공격 표면(Attack Surface)을 형성합니다. 이러한 배경에서 본 문서는 연합학습의 공격 표면을 클라이언트, 서버, 통신 채널, 모델의 네 가지 핵심 영역으로 나누어 분석하고, 각 영역에서 발생하는 대표적인 공격 기법과 이를 완화하기 위한 다층적 방어 전략을 순차적으로 제시합니다.2. 연합학습..

FL-04. 연합학습의 사이버 보안을 위한 위협 모델링

1. 개요 연합학습(Federated Learning, FL)은 데이터가 생성된 위치(예: 모바일, 병원)에서 데이터를 버로 이동시키지 않고 머신러닝 모델을 훈련하는 분산형 AI 기술입니다. 이는 사용자의 개인정보를 보호하면서도 대규모 데이터를 활용할 수 있는 강력한 패러다임으로 주목받고 있으며, 이로 인해 기존과 다른 새로운 보안 위협에 직면하고 있습니다. 하지만 데이터가 중앙화되지 않는다는 특성은 기존의 데이터 센터 중심 보안 모델로는 대응하기 어려운 새로운 공격 벡터와 보안 취약점을 야기합니다. 따라서 연합학습 시스템을 안전하게 구축하고 운영하기 위해서는 잠재적 위협을 체계적으로 식별하고 분석하는 위협 모델링(Threat Modeling) 프로세스가 필수적입니다. 본 문서는 STRIDE 방법론을 활..

FL-03. 보안 모델: 일반적 정의와 연합학습에서의 적용

모든 디지털 시스템의 신뢰는 견고한 보안 설계에서 시작됩니다. 본 문서에서는 전통적인 보안 모델의 개념을 살펴보고, 데이터가 분산된 '연합 학습' 환경에서는 어떤 독특한 보안 모델이 요구되는지, 그리고 이를 강화하기 위한 기술은 무엇인지 심층적으로 알아봅니다. 1. 보안 모델(Security Model)의 일반적인 정의보안 모델이란 특정 시스템에서 '누가, 무엇을, 어떻게 할 수 있는가'를 정의하는 보안 정책(Security Policy)을 명문화하고 구현하기 위한 설계도입니다. 이는 시스템이 어떻게 보안 목표(기밀성, 무결성, 가용성 등)를 달성할 것인지를 명확하게 정의하는 규칙과 관행의 집합입니다. 보안 모델의 핵심 목적은 다음과 같습니다.정책 명문화: "어떤 주체(Subject)가 어떤 객체(Ob..

FL-02. 연합학습 보안 프레임워크: 체계적인 접근법

연합학습(Federated Learning, FL)은 데이터를 중앙 서버로 전송하지 않고, 각 클라이언트(예: 스마트폰, 병원)가 로컬에서 모델을 학습한 뒤, 그 결과(모델 업데이트)만을 중앙 서버에 공유하여 전체 모델을 개선하는 분산형 기계학습 방식입니다. 데이터가 로컬 환경을 벗어나지 않아 개인정보보호에 큰 장점이 있지만, 모델 업데이트 값 자체에 민감한 정보가 포함될 수 있으며, 시스템의 분산된 특성으로 인해 새로운 보안 위협이 발생할 수 있습니다. 따라서 본 문서는 연합학습 시스템을 안전하게 구축하고 운영하고자 하는 개발자 및 보안 설계자를 위해, 보안 모델 수립부터 위협 모델링, 그리고 핵심 방어 전략에 이르는 체계적인 접근법을 제시하는 것을 목표로 합니다.1. 보안 모델개념보안 모델은 시스템이..