데이터 반출 없는 다 기관 협업 인공지능 학습 인프라

분류 전체보기 189

사이버 보안의 3요소: 기밀성, 무결성, 가용성

사이버 보안의 3요소는 기밀성(Confidentiality), 무결성(Integrity), 가용성(Availability)이며, 영문 앞 글자를 따서 'CIA Triad'라고도 부릅니다. 이 세 가지 요소는 정보 자산을 안전하게 보호하기 위한 핵심 원칙으로, 어느 하나라도 무너지면 심각한 보안 사고로 이어질 수 있습니다.1. 기밀성 (Confidentiality)개념정보를 포함한 모든 자산에 대해 오직 인가된 사용자만이 접근할 수 있도록 통제하는 원칙입니다. '알아야 할 사람만 알아야 한다(Need-to-know)'는 원칙과 일맥상통하며, 허가되지 않은 정보 유출을 방지하는 것을 목표로 합니다.​주요 기술암호화(Encryption): 데이터를 알아볼 수 없는 형태로 바꾸어 허가된 사용자만 복호화 키를 통..

공격 표면 (Attack Surface)

사이버 보안에서 공격 표면(Attack Surface)이란 해커가 시스템에 무단으로 접근하여 데이터를 훔치거나 손상시키기 위해 악용할 수 있는 모든 진입점(entry points)의 총합을 의미합니다.​쉽게 말해, 외부의 공격에 노출되어 있는 우리 회사나 개인 시스템의 모든 '문과 창문'이라고 생각할 수 있습니다. 이 '문과 창문'이 많고 관리가 허술할수록 공격 표면은 넓어지고, 해킹당할 위험은 커집니다.공격 표면의 종류공격 표면은 크게 세 가지로 나눌 수 있습니다.1. 디지털 공격 표면​네트워크와 인터넷을 통해 접근할 수 있는 모든 자산을 포함합니다. 이는 가장 일반적인 공격 경로입니다.예시: 웹사이트, 서버, VPN, 방화벽, 이메일 계정, 클라우드 스토리지, API, 모바일 앱 등​2. 물리적 공격..

주요 공격 벡터 유형

공격 벡터는 공격자가 시스템에 침투하기 위해 사용하는 경로와 방법을 의미하며, 크게 기술적 취약점을 이용하는 방식과 인간의 심리를 이용하는 방식으로 나눌 수 있습니다.1. 사회 공학 (Social Engineering)기술이 아닌 사람의 심리나 실수를 이용해 정보를 탈취하거나 악성 행위를 유도하는 공격입니다.피싱 (Phishing): 이메일, 문자(스미싱), 메신저 등을 통해 금융 기관이나 유명 기업으로 위장하여 계정 정보나 비밀번호 입력을 유도합니다.스피어 피싱 (Spear Phishing): 특정 개인이나 조직을 목표로 맞춤형 정보를 담아 보내는 정교한 피싱 공격입니다.비싱 (Vishing): 음성(Voice) 통화를 이용한 피싱으로, 콜센터 직원 등을 사칭하여 정보를 빼냅니다.미끼 (Baiting)..

'공격 벡터'에서 '벡터(vector)'라는 단어의 유래

'공격 벡터'에서 '벡터(vector)' 라는 단어를 사용하는 이유는 이 단어가 가진 '방향과 경로를 통해 무언가를 전달하는 매개체' 라는 핵심 의미 때문입니다. 이는 주로 생물학과 수학/물리학에서 유래한 비유입니다.1. 생물학적 비유 (질병의 전파)​가장 강력한 비유는 생물학의 '매개체(vector)'입니다.생물학에서 벡터란? 말라리아를 옮기는 모기처럼, 병원균을 한 숙주에서 다른 숙주로 옮기는 생물을 의미합니다. 모기 자체가 질병은 아니지만, 질병을 전달하는 경로이자 수단이 됩니다.사이버 보안의 적용: 이와 마찬가지로, 피싱 이메일은 악성코드라는 '병원균(pathogen)'을 공격자로부터 사용자 컴퓨터라는 '숙주(host)'로 전달하는 '공격 벡터'가 됩니다. 이메일 자체가 해킹은 아니지만, 해킹을 ..

KL 발산 기반 Non-IID 정량 분석 및 연합학습 최적화

연합학습(Federated Learning)의 최대 난제는 각 로컬 기관(Client)의 데이터가 서로 다른 분포를 가지는 Non-IID(Not Identically and Independently Distributed) 특성을 띈다는 점입니다. 이를 해결하기 위해 KL 발산(Kullback-Leibler Divergence)을 활용하여 데이터 이질성을 정량화하고 적합한 학습 전략, 또는 병합 전략을 선택할 수 있습니다.1. 수학적 배경: KL-Divergence와 데이터 분포KL-Divergence는 두 확률분포 $P$와 $Q$ 사이의 차이를 측정하는 지표입니다. 물리학의 엔트로피 개념과 밀접한 관련이 있으며, 정보이론에서는 '실제 분포 $P$를 근사 분포 $Q$로 모델링했을 때 발생하는 정보 손실량'..

의료 AI 상용화 핵심 요건 및 상세 구현 전략

AI가 연구실을 넘어 실제 의료 현장으로 향할 때최근 의료 AI 기술은 비약적인 발전을 거듭하고 있지만, 실제 임상 현장에 도입되어 상용화되기까지는 넘어야 할 높은 벽들이 존재합니다. 단순히 데이터의 정확도를 높이는 것을 넘어, 의료진이 신뢰할 수 있는 근거를 제시하고 민감한 정보를 안전하게 보호하며 기존 병원 시스템에 자연스럽게 녹아드는 '실용적 전략'이 무엇보다 중요해진 시점입니다. 오늘은 의료 AI가 연구실을 넘어 실제 병원에서 활발히 쓰이기 위한 5대 핵심 상용화 로드맵을 정리해 보았습니다.의료 AI 상용화 핵심 요건 및 상세 구현 전략요건 분류핵심 가치상세 내용 및 구현 방안 (상용화 전략)1. 다기관 협업 기반 고성능 모델 확보데이터 보호와 활용의 딜레마 해결민감한 의료 데이터를 외부로 반출하..

쿨백-라이블러(Kullback-Leibler) 발산 이해하기 (예: 찌그러진 동전)

쿨백-라이블러(Kullback-Leibler) 발산(이하, KL 발산)의 정의는 다음과 같습니다.$$D_{KL}(P \| Q) = \sum_{i} P(x_i) \log \frac{P(x_i)}{Q(x_i)}$$$x_i$: 개별 사건$P(x_i)$: 실제에 기반하여 계산한 사건 $x_i$의 발생 확률$Q(x_i)$: 가설에 기반하여 계산한 사건 $x_i$의 발생 확률$D_{KL}(P\|Q)$: 가설을 사용하여 실제 사건의 발생 확률을 계산할 때 생기는 비효율의 척도이해를 돕기 위하여 찌그러진 동전을 예로 설명해 보겠습니다.실제: 앞면이 나올 확률 0.8, 뒷면이 나올 확률 0.2가설: 앞면이 나올 확률 0.2, 뒷면이 나올 확률 0.8이 값들로부터 KL 발산을 구한 결과는 다음과 같습니다.앞면에 의한 $D..

정보 엔트로피와 교차 엔트로피의 관계

1. 두 개념의 관계: KL Divergence두 개념을 연결하는 핵심 고리는 쿨백-라이블러 발산 (Kullback-Leibler Divergence, $D_{KL}$)입니다. $D_{KL}$은 두 분포 $P$와 $Q$가 얼마나 다른지를 측정하는 '거리'와 유사한 개념입니다. 이들의 관계는 다음의 핵심 공식으로 표현됩니다.$$H(P, Q) = H(P) + D_{KL}(P || Q)$$ 이 공식을 풀어서 해석하면 다음과 같습니다.$H(P, Q)$ (교차 엔트로피): 모델($Q$)을 사용해 실제($P$)를 설명하는 데 드는 총 비용(Loss).$H(P)$ (정보 엔트로피): 실제($P$)가 본질적으로 가진 불확실성. (이론적인 최소 비용)$D_{KL}(P || Q)$ (KL 발산): 모델($Q$)이 실제($..

정보 엔트로피, 교차 엔트로피, KL 발산 개념의 탄생과 발전

두 개념의 탄생과 발전은 통신 공학에서 시작되어 통계학을 거쳐 현재의 머신러닝으로 이어지는 흥미로운 역사를 가지고 있습니다. 물리학에서 정의된 엔트로피가 '무질서도'를 측정했다면, 정보이론에서의 역사는 이를 '불확실성'과 '정보량'으로 정량화하며 시작되었습니다.1. 1948년: 정보 엔트로피의 탄생 (Claude Shannon)정보 엔트로피는 벨 연구소의 클로드 섀넌(Claude Shannon)이 그의 기념비적인 논문 "A Mathematical Theory of Communication"에서 처음 제안했습니다.배경: 섀넌은 통신 채널을 통해 메시지를 전달할 때, 데이터를 얼마나 효율적으로 압축할 수 있는지(이론적 한계)를 연구하고 있었습니다.핵심 기여: 그는 메시지가 가질 수 있는 정보의 양을 확률적으..

데이터 사이의 거리: KL 발산부터 Wasserstein 거리까지

딥러닝 모델의 성능을 높이거나, 특히 연합학습(Federated Learning) 환경에서 기관 간의 데이터 불균형(Non-IID) 문제를 다룰 때, 우리가 가장 먼저 마주하는 질문은 이것입니다. "두 데이터 분포가 얼마나 다른가?" 이 질문에 답하기 위해 통계학과 정보이론에서는 다양한 '거리(Distance)'와 '발산(Divergence)' 개념을 사용합니다. 오늘은 가장 대표적인 4가지 지표를 물리학적 직관과 데이터 과학의 관점에서 비교해 보겠습니다.1. KL Divergence (Kullback-Leibler Divergence)"정보의 손실을 측정하다"KL 발산은 정보이론의 핵심 개념으로, 실제 분포 $P$를 근사 분포 $Q$로 표현했을 때 발생하는 정보의 손실량(상대 엔트로피)을 측정합니다.수..