연합학습/사이버 보안

FL-07. 방어 전략: 견고한 집계 전략들

FedTensor 2025. 11. 3. 16:11

연합학습에서 견고한 집계 전략(Robust Aggregation Strategy)은 악의적인 클라이언트가 전송하는 비정상적인 업데이트(Outlier)로부터 글로벌 모델을 보호하기 위한 서버 측 방어 기법입니다.

기본적인 FedAvg는 모든 클라이언트의 업데이트를 '단순 평균'하기 때문에, 하나의 강력한 악성 업데이트만으로도 전체 글로벌 모델이 쉽게 오염될 수 있습니다(포이즈닝 공격).

견고한 집계 전략들은 "정직한 클라이언트의 업데이트는 (고차원 공간에서) 서로 유사한 경향을 보일 것이고, 악의적인 업데이트는 이들로부터 멀리 떨어져 있을 것"이라는 핵심 가정을 기반으로, 이러한 이상치를 식별하고 그 영향을 최소화하거나 완전히 제거합니다.

주요 견고한 집계 전략들은 다음과 같습니다.

1. 절삭 평균 (Trimmed Mean)

  • 동작 원리: 가장 고전적이고 직관적인 통계적 방식입니다.
    1. 모델의 각 파라미터(가중치)별로 모든 클라이언트가 제출한 값들을 수집합니다.
    2. 이 값들을 크기순으로 정렬합니다.
    3. 사전에 정한 비율($\beta$)만큼 상위 극단값과 하위 극단값을 '잘라내고(trim)' 버립니다.
    4. 남아있는 중앙의 값들만 가지고 평균을 계산하여 글로벌 모델을 업데이트합니다.
  • 장점: 계산 비용이 매우 저렴하고 구현이 간단합니다.
  • 단점: $\beta$ 값을 (즉, 악의적인 클라이언트의 비율을) 미리 가정해야 합니다. 너무 많이 잘라내면 정직하지만 유용한 업데이트(Non-IID 데이터)까지 버릴 위험이 있습니다.

2. 좌표별 중앙값 (Coordinate-wise Median)

  • 동작 원리: 절삭 평균의 극단적인 형태로 볼 수 있습니다.
    1. 마찬가지로 모델의 각 파라미터별로 값들을 수집하고 정렬합니다.
    2. 상/하위 값을 버리는 대신, 오직 정중앙에 위치한 값(Median) 하나만을 선택합니다.
  • 장점: 중앙값은 통계적으로 이상치에 매우 '견고(robust)'합니다. (전체 클라이언트의 50% 미만이 악의적이라면 영향을 받지 않음).
  • 단점: 각 파라미터마다 단 하나의 클라이언트 값만 선택되므로, 나머지 정직한 클라이언트들의 유용한 정보가 모두 버려져 모델 학습이 불안정해지거나 비효율적일 수 있습니다.

3. Krum / Multi-Krum

  • 동작 원리: '업데이트 유사도'를 직접적으로 사용합니다. 개별 파라미터가 아닌 전체 업데이트 벡터를 하나의 단위로 평가합니다.
    1. 각 클라이언트 업데이트 $U_i$에 대해, 다른 모든 업데이트 $U_j$와의 L2 거리(유사도)를 계산합니다.
    2. $U_i$가 자신과 가장 가까운 $k$개의 이웃 업데이트들과 얼마나 가까운지 '점수'를 매깁니다. (점수가 낮을수록 다른 업데이트들과 가깝다는 의미)
    3. Krum: 점수가 가장 낮은(가장 중심에 있는) 단 하나의 업데이트만 선택합니다.
    4. Multi-Krum: 점수가 낮은 상위 $m$개의 업데이트를 선택하여, 이들만 평균 냅니다.
  • 장점: 이상치 탐지에 효과적이며 Multi-Krum은 Krum보다 안정적입니다.
  • 단점: 클라이언트 수($N$)가 많아지면 모든 쌍의 거리를 계산해야 하므로 계산 비용($O(N^2)$)이 매우 높습니다.

4. Bulyan (불리안)

  • 동작 원리: Krum(또는 Multi-Krum)과 좌표별 중앙값(혹은 절삭 평균)을 결합한 다단계(multi-stage) 전략입니다. 현재까지 제안된 전략 중 이론적으로 가장 높은 수준의 견고성을 보장하는 전략 중 하나입니다.
    1. 1단계 (선택): Multi-Krum과 유사한 방식으로 '이상치'일 가능성이 높은 업데이트들을 반복적으로 걸러냅니다. (신뢰할 수 있는 업데이트 후보군 $\theta$개를 선택)
    2. 2단계 (집계): 1단계에서 살아남은 $\theta$개의 업데이트들을 대상으로, '좌표별 중앙값' 또는 '좌표별 절삭 평균'을 적용하여 최종 글로벌 모델을 집계합니다.
  • 장점: 매우 강력한 견고성을 제공합니다.
  • 단점: Krum보다 훨씬 더 복잡하고 계산 비용이 막대합니다.

5. 기하 중앙값 (Geometric Median)

  • 동작 원리: '좌표별 중앙값'이 각 차원(파라미터)을 독립적으로 보는 한계를 극복합니다.
    1. 모든 업데이트 벡터($U_1, U_2, ...$)를 고차원 공간의 '점'으로 봅니다.
    2. 이 공간에서 모든 점들까지의 거리 합(L2 거리의 합)을 최소화하는 단 하나의 새로운 중심점 $GM$을 찾습니다.
    3. 이 $GM$을 새로운 글로벌 모델 업데이트로 사용합니다.
  • 장점: '좌표별 중앙값'보다 통계적으로 더 안정적이며, 고차원 공간의 특성을 잘 반영한 진정한 '중앙값'입니다.
  • 단점: 이 $GM$을 찾는 것은 해석적으로 풀 수 없고, '바이츠펠트 알고리즘(Weiszfeld's algorithm)' 같은 반복적인 최적화 계산이 필요하여 계산 비용이 높습니다.

요약 및 트레이드오프

이러한 견고한 전략들은 보안성과 계산 비용/성능 간의 명확한 트레이드오프를 가집니다.

  • Krum, Bulyan, Geometric Median 등은 강력한 보안을 제공하지만 계산 비용이 높습니다.
  • Trimmed Mean, Median 등은 빠르고 간단하지만, Non-IID 환경(정직한 클라이언트들의 데이터가 서로 많이 다른 경우)에서는 이들의 유용한 정보를 '이상치'로 오인하여 버릴 위험이 있습니다.

따라서 실제 시스템을 구축할 때는 예상되는 위협 수준, 클라이언트의 수, 데이터 분포(IID 여부) 등을 고려하여 적절한 전략을 선택해야 합니다.