데이터 반출 없는 다 기관 협업 인공지능 학습 인프라

의료 AI/요로결석

STONE-07. 요로결석 CT 데이터셋: KSSD2025 & Mendeley Data

FedTensor 2026. 3. 16. 09:17

두 데이터셋은 2025년에 공개된 최신 의료 영상 데이터로, 각각 정밀한 픽셀 단위 추출(Segmentation)과 대규모 특징 학습(Detection/Classification)이라는 뚜렷한 강점을 가지고 있습니다. 두 데이터셋의 상세 스펙과 기술적 활용 방안을 정리합니다.

1. KSSD2025 (Kidney Stone Segmentation Dataset)

이 데이터셋은 결석의 정확한 형태, 크기, 위치를 픽셀 단위로 발라내는 '세그멘테이션' 기술 고도화에 완벽하게 맞춰진 고품질 데이터입니다.

  • 데이터 구성: 838장의 Axial(가로 단면) CT 이미지와 이에 1:1로 매칭되는 정답지인 이진 마스크(Binary Mask) 파일로 구성되어 있습니다.
  • 주요 특징:
    • 엄선된 고품질 정답지: 기존의 대규모 신장 질환 데이터셋(Islam et al.)에서 결석이 뚜렷하게 보이는 Axial 이미지만을 엄선한 뒤, 반자동 임계값 처리와 임상 전문가의 수동 보정을 거쳐 매우 정교한 마스크를 생성했습니다.
    • 입증된 벤치마크 지표: 2025년 관련 논문(Bouzon et al.)에 따르면, 이 데이터를 사용하여 U-Net, U-Net++, TransU-Net 등의 아키텍처를 학습시켰을 때 95~97% 이상의 높은 Dice Score를 기록했습니다.
  • 활용 전략: 3D U-Net 모델의 본 학습(Main Training) 및 손실 함수(Dice+BCE Loss) 최적화에 직접적으로 투입할 수 있습니다.

2. Mendeley Data (Axial CT Imaging Dataset for AI-Powered Kidney Stone Detection)

이 데이터셋은 결석의 존재 유무를 판별하고, 다양한 장비와 환자 환경에서 모델이 흔들리지 않도록 강건성(Robustness)을 부여하는 데 특화된 대규모 데이터입니다.

  • 데이터 구성: 3,364장의 고해상도(1920x1080) 원본 CT 이미지와, 이를 회전/크기 조절 등으로 부풀린 35,457장의 증강(Augmented) 이미지로 구성됩니다. 결석 정상군(Non-stone)과 결석 환자군(Stone) 클래스로 분류되어 있습니다.
  • 주요 특징:
    • 실제 다기관 임상 데이터: 이라크 지역(술라이마니야, 라니아)의 실제 여러 의료 기관에서 수집된 리얼월드 데이터(Real-world data)입니다.
    • 대규모 데이터 물량: 픽셀 단위의 마스크는 없지만 데이터의 양이 압도적으로 많아, ResNet이나 Swin Transformer 같은 파라미터가 많은 무거운 모델을 학습시킬 때 과적합을 방지할 수 있습니다.
  • 활용 전략: 연합학습 환경에서 마주할 데이터 이질성(Non-IID)을 극복하기 위한 수단으로 쓰기 좋습니다. 본격적인 세그멘테이션 학습 전에, 이 대규모 데이터를 사용하여 3D U-Net의 인코더(Encoder) 부분이 '결석의 보편적인 시각적 특징'을 스스로 깨우치도록 사전 학습(Pre-training) 시키는 용도로 활용하면 최종 모델의 수렴 속도와 정확도가 크게 향상됩니다.

요약 및 파이프라인 적용 제안

데이터셋 핵심 목적 데이터 규모 레이블 형태 권장 활용 단계
KSSD2025 세그멘테이션 838장 픽셀 단위 이진 마스크 U-Net 본 학습 및 세밀한 성능 평가
Mendeley Data 검출 및 분류 원본 3,364장 (증강 포함 3.5만장) 이미지 단위 (Stone / Non-stone) 모델 인코더 사전 학습 (Pre-training)을 통한 특징 추출기 강화

 

이 두 데이터셋의 시너지를 극대화하기 위해, Mendeley 데이터로 모델의 뼈대를 먼저 학습시킨 후 KSSD2025 데이터로 미세 조정(Fine-tuning)을 수행하는 전이 학습(Transfer Learning) 파이프라인 코드를 구성하는 것이 좋은 접근일 수 있습니다.