07. 요로결석 CT 데이터셋: KSSD2025 & Mendeley Data

의료 AI/요로결석

07. 요로결석 CT 데이터셋: KSSD2025 & Mendeley Data

FedTensor 2026. 3. 16. 09:17

두 데이터셋은 2025년에 공개된 최신 의료 영상 데이터로, 각각 정밀한 픽셀 단위 추출(Segmentation)과 대규모 특징 학습(Detection/Classification)이라는 뚜렷한 강점을 가지고 있습니다. 두 데이터셋의 상세 스펙과 기술적 활용 방안을 정리합니다.

1. KSSD2025 (Kidney Stone Segmentation Dataset)

이 데이터셋은 결석의 정확한 형태, 크기, 위치를 픽셀 단위로 발라내는 '세그멘테이션' 기술 고도화에 완벽하게 맞춰진 고품질 데이터입니다.

데이터 구성: 838장의 Axial(가로 단면) CT 이미지와 이에 1:1로 매칭되는 정답지인 이진 마스크(Binary Mask) 파일로 구성되어 있습니다.
- 이미지 파일 형식: *.tif
주요 특징:
- 엄선된 고품질 정답지: 기존의 대규모 신장 질환 데이터셋(Islam et al.)에서 결석이 뚜렷하게 보이는 Axial 이미지만을 엄선한 뒤, 반자동 임계값 처리와 임상 전문가의 수동 보정을 거쳐 매우 정교한 마스크를 생성했습니다.
- 입증된 벤치마크 지표: 2025년 관련 논문(Bouzon et al.)에 따르면, 이 데이터를 사용하여 U-Net, U-Net++, TransU-Net 등의 아키텍처를 학습시켰을 때 95~97% 이상의 높은 Dice Score를 기록했습니다.
활용 전략: 3D U-Net 모델의 본 학습(Main Training) 및 손실 함수(Dice+BCE Loss) 최적화에 직접적으로 투입할 수 있습니다.

2. Mendeley Data (Axial CT Imaging Dataset for AI-Powered Kidney Stone Detection)

이 데이터셋은 결석의 존재 유무를 판별하고, 다양한 장비와 환자 환경에서 모델이 흔들리지 않도록 강건성(Robustness)을 부여하는 데 특화된 대규모 데이터입니다.

데이터 구성: 3,364장의 고해상도(1920x1080) 원본 CT 이미지와, 이를 회전/크기 조절 등으로 부풀린 35,457장의 증강(Augmented) 이미지로 구성됩니다. 결석 정상군(Non-stone)과 결석 환자군(Stone) 클래스로 분류되어 있습니다.
- 이미지 파일 형식: *.jpg
주요 특징:
- 실제 다기관 임상 데이터: 이라크 지역(술라이마니야, 라니아)의 실제 여러 의료 기관에서 수집된 리얼월드 데이터(Real-world data)입니다.
- 대규모 데이터 물량: 픽셀 단위의 마스크는 없지만 데이터의 양이 압도적으로 많아, ResNet이나 Swin Transformer 같은 파라미터가 많은 무거운 모델을 학습시킬 때 과적합을 방지할 수 있습니다.
활용 전략: 연합학습 환경에서 마주할 데이터 이질성(Non-IID)을 극복하기 위한 수단으로 쓰기 좋습니다. 본격적인 세그멘테이션 학습 전에, 이 대규모 데이터를 사용하여 3D U-Net의 인코더(Encoder) 부분이 '결석의 보편적인 시각적 특징'을 스스로 깨우치도록 사전 학습(Pre-training) 시키는 용도로 활용하면 최종 모델의 수렴 속도와 정확도가 크게 향상됩니다.

요약 및 파이프라인 적용 제안

데이터셋	핵심 목적	데이터 규모	레이블 형태	권장 활용 단계
KSSD2025	세그멘테이션	838장	픽셀 단위 이진 마스크	U-Net 본 학습 및 세밀한 성능 평가
Mendeley Data	검출 및 분류	원본 3,364장 (증강 포함 3.5만장)	이미지 단위 (Stone / Non-stone)	모델 인코더 사전 학습 (Pre-training)을 통한 특징 추출기 강화

이 두 데이터셋의 시너지를 극대화하기 위해, Mendeley 데이터로 모델의 뼈대를 먼저 학습시킨 후 KSSD2025 데이터로 미세 조정(Fine-tuning)을 수행하는 전이 학습(Transfer Learning) 파이프라인 코드를 구성하는 것이 좋은 접근일 수 있습니다.

'의료 AI > 요로결석' 카테고리의 다른 글

09. DICOM 파일 형식과 구조 (0)	2026.03.16
08. CT 이미지에서 개인 식별 정보 제거 (0)	2026.03.16
06. CT 이미지로부터 결석을 추출하는 기술 및 모델 소개 (0)	2026.03.15
05. 라디오믹스(Radiomics): 의료 영상을 '빅데이터'로 변환하는 기술 (0)	2026.01.20
04. AI는 요로결석 치료 성공을 예측할 수 있을까? (0)	2026.01.20

현재글07. 요로결석 CT 데이터셋: KSSD2025 & Mendeley Data

페드텐서 FedTensor

데이터의 보호와 활용 - 천천히, 제대로

정보보호, 데이터분석, 인공지능, 타원곡선암호, 태동검사, 차등정보보호, ECC, 멱법칙, 프라이버시, 이산로그문제, 보안다자간계산, 푸아송분포, 신경세포, 개인정보보호, 트랜스포머, 데이터이질성, 차분프라이버시, smpc, 비밀공유, 사이버보안, 엔트로피, 베이지안추론, 뇌가소성, 연합학습, 신경망, kl발산, secagg+, non-iid, 이질적데이터, ecdlp,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

페드텐서 FedTensor