'연합학습' 카테고리의 글 목록

연합학습 31

데이터 이질성 측정: 글로벌 평균 기준 발산 측정 vs. 클라이언트 간 쌍대 비교

연합학습에서 Non-IID 데이터로 인한 모델 성능 저하를 막기 위해 가중치나 그래디언트의 발산을 측정하는 것은 매우 핵심적인 접근입니다. 코사인 유사도 기반 측정 방식으로 글로벌 평균 기준 발산 측정과 클라이언트 간 쌍대 비교가 있는데 이 둘은 구조가 다른 만큼 각각 뚜렷한 특징과 장단점을 가지고 있습니다.1. 글로벌 평균 기준 발산 측정 (Global Mean-Centric)전체 클라이언트들의 가중치 평균인 글로벌 모델 $\bar{W}$를 구하고, 각 클라이언트 $W_i$가 이 평균과 얼마나 유사한지 계산하여 평균을 내는 방식입니다. 장점:연산 효율성 ($O(N)$): 클라이언트 수가 $N$일 때, 글로벌 평균을 한 번 구하고 $N$번의 코사인 유사도만 계산하면 되므로 시스템 부하가 매우 적습니다...

연합학습/추론 성능 2026.03.04

KL 발산 기반 Non-IID 정량 분석 및 연합학습 최적화

연합학습(Federated Learning)의 최대 난제는 각 로컬 기관(Client)의 데이터가 서로 다른 분포를 가지는 Non-IID(Not Identically and Independently Distributed) 특성을 띈다는 점입니다. 이를 해결하기 위해 KL 발산(Kullback-Leibler Divergence)을 활용하여 데이터 이질성을 정량화하고 적합한 학습 전략, 또는 병합 전략을 선택할 수 있습니다.1. 수학적 배경: KL-Divergence와 데이터 분포KL-Divergence는 두 확률분포 $P$와 $Q$ 사이의 차이를 측정하는 지표입니다. 물리학의 엔트로피 개념과 밀접한 관련이 있으며, 정보이론에서는 '실제 분포 $P$를 근사 분포 $Q$로 모델링했을 때 발생하는 정보 손실량'..

연합학습/추론 성능 2026.02.22

의료 AI 상용화 핵심 요건 및 상세 구현 전략

AI가 연구실을 넘어 실제 의료 현장으로 향할 때최근 의료 AI 기술은 비약적인 발전을 거듭하고 있지만, 실제 임상 현장에 도입되어 상용화되기까지는 넘어야 할 높은 벽들이 존재합니다. 단순히 데이터의 정확도를 높이는 것을 넘어, 의료진이 신뢰할 수 있는 근거를 제시하고 민감한 정보를 안전하게 보호하며 기존 병원 시스템에 자연스럽게 녹아드는 '실용적 전략'이 무엇보다 중요해진 시점입니다. 오늘은 의료 AI가 연구실을 넘어 실제 병원에서 활발히 쓰이기 위한 5대 핵심 상용화 로드맵을 정리해 보았습니다.의료 AI 상용화 핵심 요건 및 상세 구현 전략요건 분류핵심 가치상세 내용 및 구현 방안 (상용화 전략)1. 다기관 협업 기반 고성능 모델 확보데이터 보호와 활용의 딜레마 해결민감한 의료 데이터를 외부로 반출하..

연합학습/구축 방안 2026.02.22

데이터 사이의 거리: KL 발산부터 Wasserstein 거리까지

딥러닝 모델의 성능을 높이거나, 특히 연합학습(Federated Learning) 환경에서 기관 간의 데이터 불균형(Non-IID) 문제를 다룰 때, 우리가 가장 먼저 마주하는 질문은 이것입니다. "두 데이터 분포가 얼마나 다른가?" 이 질문에 답하기 위해 통계학과 정보이론에서는 다양한 '거리(Distance)'와 '발산(Divergence)' 개념을 사용합니다. 오늘은 가장 대표적인 4가지 지표를 물리학적 직관과 데이터 과학의 관점에서 비교해 보겠습니다.1. KL Divergence (Kullback-Leibler Divergence)"정보의 손실을 측정하다"KL 발산은 정보이론의 핵심 개념으로, 실제 분포 $P$를 근사 분포 $Q$로 표현했을 때 발생하는 정보의 손실량(상대 엔트로피)을 측정합니다.수..

연합학습/추론 성능 2026.02.03

연합학습에서의 데이터 이질성(Non-IID) 정량화

1. 개요연합학습의 가장 큰 난제는 클라이언트(기관)마다 데이터 분포가 다른 Non-IID(Non-Independent and Identically Distributed) 상황입니다. 중앙 서버가 원본 데이터를 볼 수 없는 보안 제약 하에서, 서버는 클라이언트들이 전송하는 모델 업데이트의 기하학적, 통계적 특성을 분석하여 이질성을 간접적으로 정량화할 수 있습니다.2. 서버 측 이질성 정량화 방법론2.0. 전제: 모델 업데이트의 정의와 등가성본 문서에서 언급하는 '모델 업데이트'는 구체적인 구현(FedAvg, FedSGD 등)에 따라 다음 세 가지 중 하나일 수 있으나, 이질성 정량화의 본질은 동일합니다.파라미터 ($w_t$): 학습이 완료된 로컬 모델의 가중치 자체파라미터 차이 ($\Delta w$): ..

연합학습/추론 성능 2026.01.10

연합학습 모델 개발 및 고도화 전략

1. 개요본 4단계 전략은 연합학습의 핵심 과제인 데이터 불균형(Data Heterogeneity, Non-IID) 문제를 단계적으로 해결하고, 최종적으로 개인화를 통해 각 기관에 최적화된 모델을 제공하는 로드맵입니다. 각 단계는 독립적인 과정이 아니라, 앞 단계의 결과 모델이 다음 단계의 초기 시작점이 되는 연속적인 진화 과정으로 설계되었습니다.1~2단계: 콜드 스타트(Cold Start) 문제 해결 및 데이터 프라이버시를 보장하는 베이스라인 구축.3~4단계: 기관별 데이터 분포 차이로 인한 성능 저하를 막고, 각 도메인에 특화된 모델 제공.2. 단계별 상세 실행 전략[1단계] 중앙집중 방식 학습"콜드 스타트 해결 및 초기 기준점 확보" 연합학습은 초기 모델의 성능에 따라 수렴 속도가 크게 달라집니다...

연합학습/구축 방안 2026.01.02

데이터 파이프라인 및 워크플로우 구성 오픈소스 도구들

주요 오픈소스 도구들에 대한 기본 정보를 정리하여 비교할 수 있도록 하였습니다.Apache Airflow가장 널리 알려지고 강력한 생태계를 자랑하는 워크플로우 관리 도구입니다.핵심 철학: Code-First주요 특징: Python 코드 기반: 모든 워크플로우(DAG)를 Python 코드로 정의하여 버전 관리, 테스트, 동적 파이프라인 생성이 매우 유연합니다.강력한 생태계: 거의 모든 데이터 시스템과 클라우드 서비스에 연결할 수 있는 방대한 플러그인(Provider)을 제공합니다.추천 대상: Python에 익숙한 개발자 중심 팀제품 링크: https://airflow.apache.org/DolphinScheduler직관적인 UI를 통해 코딩 없이 워크플로우를 설계하고 관리하는 데 중점을 둔 도구입니다...

연합학습/구축 방안 2025.12.20

Non-IID 환경을 위한 병합 전략: FedFocal

1. 개요FedFocal은 연합학습(Federated Learning) 환경, 특히 각 클라이언트가 보유한 데이터의 레이블 분포가 균일하지 않은 Non-IID(Label Skew) 상황을 해결하기 위해 제안된 기법입니다. 기존의 FedAvg가 사용하는 Cross Entropy(CE) 손실 함수 대신, Focal Loss를 도입하여 모델이 분류하기 쉬운 샘플(Easy Examples)보다는 분류하기 어려운 샘플(Hard Examples)이나 소수 클래스(Minority Class)에 더 집중하도록 유도합니다.2. 배경: 왜 FedFocal이 필요한가?2.1. 연합학습의 Non-IID 문제연합학습에서 이상적인 환경은 모든 클라이언트가 전체 데이터 분포와 유사한 데이터를 갖는 IID 상황입니다. 하지만 현실에..

연합학습/추론 성능 2025.12.01

연합학습 시 희소 데이터의 희석 문제 완화 방안 3가지

연합학습(FL)은 데이터를 중앙 서버로 전송하지 않고, 각 클라이언트(예: 디바이스, 지역)에서 로컬 모델을 학습한 뒤 모델 파라미터(또는 그래디언트)만 서버로 전송하여 전역 모델을 갱신하는 분산 학습 방식입니다. 이는 데이터 프라이버시를 강력하게 보호할 수 있는 장점이 있습니다. 하지만 데이터가 이질적(Non-IID)인 환경, 특히 특정 지역이나 클라이언트가 매우 적지만 중요한 '희소 데이터'를 보유한 경우, 심각한 문제가 발생합니다. 가장 널리 쓰이는 FedAvg (Federated Averaging) 알고리즘은 각 클라이언트의 데이터 '양'에 비례하여 가중 평균을 내기 때문입니다. 문제 상황: 99%의 클라이언트가 '일반 데이터'를, 1%의 클라이언트가 '희소하지만 중요한 지역 데이터'를 가졌다고 ..

연합학습/추론 성능 2025.11.18

Non-IID 환경을 위한 병합 전략: SCAFFOLD

SCAFFOLD (Stochastic Controlled Averaging)는 연합학습(FL)에서 데이터 이질성(Non-IID)으로 인해 발생하는 'Client Drift (클라이언트 편향)' 문제를 해결하기 위한 매우 정교한 알고리즘입니다. FedProx가 로컬 모델이 멀리 벗어나는 것을 '억제'하는 방식이라면, SCAFFOLD는 각 클라이언트가 얼마나 편향되었는지를 '추정'하고 이를 '보정'하는, 더 적극적인 방식을 사용합니다.1. SCAFFOLD가 해결하려는 핵심 문제: 편향된 그래디언트데이터가 이질적(Non-IID)일 때, 각 클라이언트가 계산하는 로컬 그래디언트(모델이 나아가야 할 방향)는 글로벌 모델이 실제로 나아가야 할 방향(모든 데이터의 평균 방향)과 다릅니다.Client Drift의 원인..

연합학습/추론 성능 2025.11.16

1 2 3 4

페드텐서 FedTensor

데이터의 보호와 활용 - 천천히, 제대로

차등정보보호, 개인정보보호, 뇌가소성, 데이터분석, 데이터이질성, 보안다자간계산, kl발산, 멱법칙, 연합학습, 트랜스포머, ECC, 푸아송분포, smpc, 태동검사, 엔트로피, 신경세포, 베이지안추론, 이산로그문제, 이질적데이터, 사이버보안, secagg+, 차분프라이버시, 프라이버시, 타원곡선암호, 신경망, ecdlp, 비밀공유, non-iid, 인공지능, 정보보호,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

연합학습 31

티스토리툴바