2025/11/03 3

FL-08. 방어 전략: 기여도 평가

연합학습(Federated Learning)에서 기여도 평가(Contribution Measurement)는 시스템의 보안성, 공정성, 효율성을 높이는 데 핵심적인 방어 전략입니다. 이는 "어떤 클라이언트가 글로벌 모델 성능 향상에 '정직하게' 그리고 '유용하게' 기여했는가?"를 측정하는 기술입니다. 주요 목적은 다음과 같습니다. 프리라이딩(Free-riding) 방지: 학습에 기여하지 않으면서 고성능 모델만 받아 가려는 클라이언트를 식별합니다. 보안 위협 완화: 고의로 성능을 저하하거나 백도어를 심으려는 악의적인 업데이트(포이즈닝 공격)를 식별하고 그 영향을 줄입니다. 공정한 보상: 시스템에 많이 기여한 클라이언트에게 더 많은 보상(예: 인센티브, 다음 라운드 참여 우선권)을 제공합니다.가장 큰 어려움..

FL-07. 방어 전략: 견고한 집계 전략들

연합학습에서 견고한 집계 전략(Robust Aggregation Strategy)은 악의적인 클라이언트가 전송하는 비정상적인 업데이트(Outlier)로부터 글로벌 모델을 보호하기 위한 서버 측 방어 기법입니다. 기본적인 FedAvg는 모든 클라이언트의 업데이트를 '단순 평균'하기 때문에, 하나의 강력한 악성 업데이트만으로도 전체 글로벌 모델이 쉽게 오염될 수 있습니다(포이즈닝 공격). 견고한 집계 전략들은 "정직한 클라이언트의 업데이트는 (고차원 공간에서) 서로 유사한 경향을 보일 것이고, 악의적인 업데이트는 이들로부터 멀리 떨어져 있을 것"이라는 핵심 가정을 기반으로, 이러한 이상치를 식별하고 그 영향을 최소화하거나 완전히 제거합니다. 주요 견고한 집계 전략들은 다음과 같습니다.1. 절삭 평균 (Tri..

방어 기술: 모델 워터마킹(Model Watermarking)

모델 워터마킹은 머신러닝 모델의 지적 재산권을 보호하고 소유권을 증명하기 위해, 모델 내부에 소유자만 식별할 수 있는 고유한 '디지털 낙인'이나 '서명'을 몰래 삽입하는 기술입니다. 이는 마치 지폐에 숨겨진 위조 방지 장치(워터마크)나 디지털 이미지에 저작권 정보를 심는 것과 유사합니다. 누군가 내 모델을 훔쳐가서 서비스(API)로 제공하거나 파일 자체를 탈취했을 때, "이것이 내 모델"임을 증명하는 결정적인 증거로 사용됩니다. 동작 원리는 크게 '블랙박스 방식'과 '화이트박스 방식'으로 나뉘며, 핵심은 "트리거-반응" 메커니즘입니다.1. 블랙박스 워터마킹가장 일반적인 방식이며, 공격자가 모델의 내부(가중치)는 볼 수 없고 API처럼 입력과 출력만 접근할 수 있는 상황을 가정합니다. "비밀의 입력(트리거..