의료 데이터, 특히 CT 이미지에서 개인 식별 정보(PII: Personally Identifiable Information)를 제거하는 것은 데이터 활용과 보호 사이의 균형을 맞추는 핵심 작업입니다. 인공지능 학습에서 이 과정은 데이터 비식별화(De-identification) 및 익명화(Anonymization)의 필수 단계가 됩니다.
CT 이미지의 비식별화는 크게 두 가지 영역에서 이루어집니다.
1. DICOM 메타데이터 비식별화 (Header Cleaning)
대부분의 CT 이미지는 DICOM(Digital Imaging and Communications in Medicine) 형식으로 저장됩니다. 이 파일의 헤더에는 수많은 태그 정보가 포함되어 있습니다.
- 직접 식별자 제거: 환자 성명(Patient Name), ID, 생년월일, 전화번호, 주소 등.
- 준식별자 처리: 검사 일시(Study Date), 병원 이름, 장비 시리얼 번호 등.
- 전략: 일시 정보는 기준일로부터의 상대적 날짜(Date Shifting)로 변환하고, 기관명은 코드화합니다.
- 도구 활용: Pydicom (Python 라이브러리)이나 DICOM Anonymizer 같은 전문 툴을 사용하여 표준 규격(DICOM PS3.15 Annex E)에 따라 태그를 일괄 삭제하거나 마스킹합니다.
2. 픽셀 데이터 내 정보 제거 (Burned-in Annotation)
가장 까다로운 부분입니다. 간혹 스캔 과정에서 환자 정보가 이미지 픽셀 자체에 '구워져(Burned-in)' 들어가는 경우가 있습니다.
- OCR 기반 제거: 광학 문자 인식(OCR) 기술을 사용하여 이미지 모서리 등에 적힌 텍스트 영역을 탐지하고, 해당 부분을 검은색으로 마스킹(Masking) 처리합니다.
- ROI(Region of Interest) 추출: 분석에 필요한 장기 영역만 남기고 나머지 배경을 잘라내는 방식입니다.
3. 안면 비식별화 (Defacing / Face Masking)
고해상도 CT의 경우 3D 재구성(Reconstruction)을 하면 환자의 얼굴 윤곽이 그대로 드러나 개인을 식별할 수 있는 위험이 있습니다.
- Defacing 알고리즘: 뇌 CT/MRI 등에서 눈, 코, 입 등 얼굴 특징점이 있는 픽셀을 변형하거나 삭제하는 알고리즘을 적용합니다. (예: PyDeface, Quickshear 등)
4. 연합학습(FL) 관점에서의 추가 고려사항
연합학습에서는 단순히 이미지에서 정보를 지우는 것을 넘어, 다음과 같은 기술적 방어 체계를 결합하는 것이 중요합니다.
| 구분 | 기술적 해결 방안 |
| 재식별 방지 | 차분 프라이버시(Differential Privacy): 통계적 노이즈를 추가하여 개별 데이터의 기여도를 숨김. |
| 추론 공격 방어 | 보안 다자간 계산(SMPC): 암호화된 상태로 모델 업데이트를 수행하여 원본 데이터 노출 차단. |
| 보안 분석 | GAN 기반 공격 대응: 가상의 데이터를 생성해 모델을 역추적하는 공격에 대한 견고성 테스트. |
'의료 AI > 요로결석' 카테고리의 다른 글
| STONE-09. DICOM 파일 형식과 구조 (0) | 2026.03.16 |
|---|---|
| STONE-07. 요로결석 CT 데이터셋: KSSD2025 & Mendeley Data (0) | 2026.03.16 |
| STONE-06. CT 이미지로부터 결석을 추출하는 기술 및 모델 소개 (0) | 2026.03.15 |
| STONE-05. 라디오믹스(Radiomics): 의료 영상을 '빅데이터'로 변환하는 기술 (0) | 2026.01.20 |
| STONE-04. AI는 요로결석 치료 성공을 예측할 수 있을까? (0) | 2026.01.20 |