2025/10/30 3

혼동 행렬과 성능 평가 지표

혼동 행렬(Confusion Matrix)진단 장비의 성능을 파악하기 위하여 질병의 유무를 알고 있는 사람들을 대상으로 진단을 수행하고 아래와 같이 혼동 행렬을 작성합니다.A: 진양성(True Positive) 수B: 위양성(False Positive, 1종 오류) 수C: 위음성(False Negative, 2종 오류) 수D: 진음성(True Negative) 수용어의 의미'혼동 행렬'이라는 용어는 그 기능에서 직접 유래했습니다. 이 행렬은 분류 모델이 각 클래스(범주)를 얼마나 '혼동(confuse)'하는지를 한눈에 보여주기 때문입니다.즉, 모델의 예측이 얼마나 헷갈렸는지를 시각적으로 표현한 표입니다.'혼동'의 주체: 모델 (또는 분류기) '혼동'의 내용: 하나의 클래스(실제 값)를 다른 클래스(예측 ..

공격 유형 비교: 모델 역공격, 멤버십 추론 공격, 모델 탈취/추출 공격

모델 역공격과 멤버십 추론은 모델의 '학습 데이터'를 표적으로 삼아 프라이버시를 침해하는 반면, 모델 탈취는 '모델 자체'를 표적으로 삼아 지적 재산을 훔치는 공격입니다. 다음은 세 가지 공격 유형에 대한 비교 설명입니다.공격 유형별 비교 요약공격 유형모델 역공격 (Model Inversion)멤버십 추론 공격 (Membership Inference)모델 탈취/추출 (Model Stealing/Extraction)주요 목표학습 데이터의 특징 또는 원본 복원특정 데이터가 학습에 사용되었는지 확인원본 모델과 동일한 성능의 모델 복제공격 대상모델의 출력값, 신뢰도 점수모델의 신뢰도 점수 차이모델 API의 입력/출력 (질의-응답)핵심 침해데이터 프라이버시데이터 프라이버시지적 재산(IP)1. 모델 역공격 (Mod..

보안 위협: 멤버십 추론 공격(Membership Inference Attack)

인공지능 모델의 보안 위협 중 하나인 멤버십 추론 공격에 대해 소개하고, 실제 적용 사례를 제시합니다.멤버십 추론 공격 소개멤버십 추론 공격은 특정 데이터가 AI 모델의 학습 데이터 세트에 포함되었는지 여부를 알아내려는 프라이버시 공격입니다.1. 공격의 목표와 원리목표: 공격자는 자신이 가진 특정 데이터(예: A라는 사람의 의료 기록, B의 사진)가 이 모델을 학습시키는 데 사용되었는지 '예' 또는 '아니오'로 판별하는 것을 목표로 합니다.핵심 원리: AI 모델, 특히 딥러닝 모델은 학습 데이터에 과적합(overfitting)되는 경향이 있습니다. 즉, 모델은 자신이 학습한 '본 적 있는' 데이터와 '처음 보는' 데이터에 대해 미묘하게 다르게 반응합니다. 학습 데이터(멤버): 모델이 이미 학습한 데이터가..