데이터 반출 없는 다 기관 협업 인공지능 학습 인프라

의료 AI/요로결석

STONE-08. CT 이미지에서 개인 식별 정보 제거

FedTensor 2026. 3. 16. 11:01

의료 데이터, 특히 CT 이미지에서 개인 식별 정보(PII: Personally Identifiable Information)를 제거하는 것은 데이터 활용과 보호 사이의 균형을 맞추는 핵심 작업입니다. 인공지능 학습에서 이 과정은 데이터 비식별화(De-identification) 및 익명화(Anonymization)의 필수 단계가 됩니다.

 

CT 이미지의 비식별화는 크게 두 가지 영역에서 이루어집니다.

1. DICOM 메타데이터 비식별화 (Header Cleaning)

대부분의 CT 이미지는 DICOM(Digital Imaging and Communications in Medicine) 형식으로 저장됩니다. 이 파일의 헤더에는 수많은 태그 정보가 포함되어 있습니다.

  • 직접 식별자 제거: 환자 성명(Patient Name), ID, 생년월일, 전화번호, 주소 등.
  • 준식별자 처리: 검사 일시(Study Date), 병원 이름, 장비 시리얼 번호 등.
    • 전략: 일시 정보는 기준일로부터의 상대적 날짜(Date Shifting)로 변환하고, 기관명은 코드화합니다.
  • 도구 활용: Pydicom (Python 라이브러리)이나 DICOM Anonymizer 같은 전문 툴을 사용하여 표준 규격(DICOM PS3.15 Annex E)에 따라 태그를 일괄 삭제하거나 마스킹합니다.

2. 픽셀 데이터 내 정보 제거 (Burned-in Annotation)

가장 까다로운 부분입니다. 간혹 스캔 과정에서 환자 정보가 이미지 픽셀 자체에 '구워져(Burned-in)' 들어가는 경우가 있습니다.

  • OCR 기반 제거: 광학 문자 인식(OCR) 기술을 사용하여 이미지 모서리 등에 적힌 텍스트 영역을 탐지하고, 해당 부분을 검은색으로 마스킹(Masking) 처리합니다.
  • ROI(Region of Interest) 추출: 분석에 필요한 장기 영역만 남기고 나머지 배경을 잘라내는 방식입니다.

3. 안면 비식별화 (Defacing / Face Masking)

고해상도 CT의 경우 3D 재구성(Reconstruction)을 하면 환자의 얼굴 윤곽이 그대로 드러나 개인을 식별할 수 있는 위험이 있습니다.

  • Defacing 알고리즘: 뇌 CT/MRI 등에서 눈, 코, 입 등 얼굴 특징점이 있는 픽셀을 변형하거나 삭제하는 알고리즘을 적용합니다. (예: PyDeface, Quickshear 등)

4. 연합학습(FL) 관점에서의 추가 고려사항

연합학습에서는 단순히 이미지에서 정보를 지우는 것을 넘어, 다음과 같은 기술적 방어 체계를 결합하는 것이 중요합니다.

구분 기술적 해결 방안
재식별 방지 차분 프라이버시(Differential Privacy): 통계적 노이즈를 추가하여 개별 데이터의 기여도를 숨김.
추론 공격 방어 보안 다자간 계산(SMPC): 암호화된 상태로 모델 업데이트를 수행하여 원본 데이터 노출 차단.
보안 분석 GAN 기반 공격 대응: 가상의 데이터를 생성해 모델을 역추적하는 공격에 대한 견고성 테스트.