데이터 반출 없는 다 기관 협업 인공지능 학습 인프라

전체 글 189

데이터로부터 참값을 찾아가는 과정

인공지능이나 신경망이라고 하면 거대한 서버실에서 복잡한 수식이 오가는 장면이 떠오르지만, 사실 그 본질은 우리가 일상에서 '진실을 찾아가는 과정'과 매우 닮아 있습니다. 기술에 익숙하지 않은 독자들도 쉽게 이해할 수 있도록, '키 측정'이라는 비유를 통해 신경망 학습의 의미를 정리해 보았습니다.AI가 공부하는 법: "당신의 진짜 키는 얼마인가요?"1. 도입: '참값'은 어디에 있는가?우리는 흔히 자신의 키가 175cm라거나 160cm라고 말합니다. 하지만 엄밀히 말해 '키의 참값'이란 무엇일까요? 아침에 잰 키와 저녁에 잰 키가 다르고, 어떤 측정기를 쓰느냐에 따라 소수점 단위가 달라집니다. 우리는 결코 완벽한 참값을 알 수 없습니다. 다만 여러 번 측정해서 얻은 데이터들을 바탕으로 "내 진짜 키는 아마..

가장 완벽한 선 긋기로 이해하는 신경망

인공지능은 어떻게 정답을 찾을까?인공지능, 딥러닝, 신경망... 이름만 들으면 무척 복잡하고 난해한 최첨단 기술처럼 느껴집니다. 하지만 그 안을 들여다보면, 기본 원리는 우리가 학창 시절 배웠던 수학과 크게 다르지 않습니다. 오늘은 2차원 평면 위에 놓인 세 개의 점을 지나는 '가장 알맞은 직선'을 찾아보며, 인공지능이 데이터를 학습하는 두 가지 방법을 쉽고 직관적으로 알아보겠습니다.문제 상황: 세 점을 지나는 완벽한 직선은 없다2차원 평면 위에 세 점 $(1, 2)$, $(2, 3)$, $(3, 5)$가 있다고 상상해 봅시다. 이 세 점을 동시에 완벽하게 관통하는 하나의 직선은 존재하지 않습니다. 따라서 우리의 목표는 이 점들과 가장 오차가 적은(가장 근접하게 지나가는) 직선인 $y = wx + b$를..

STONE-09. DICOM 파일 형식과 구조

CT 이미지와 의료용 디지털 영상 표준인 DICOM(Digital Imaging and Communications in Medicine)은 단순히 이미지만 담고 있는 파일이 아니라, 환자 정보, 촬영 장비 설정, 3D 공간 좌표 등 방대한 메타데이터가 포함된 복합 데이터 구조체입니다. 인공지능 모델 개발에 필요한 핵심적인 파일 형식과 내부 구조를 정리합니다.1. DICOM 파일 구조 (The Anatomy of a DICOM File)DICOM 파일은 크게 Preamble(서문), Prefix(접두사), 그리고 수많은 Data Element(데이터 요소)들의 집합으로 구성됩니다.구성 요소설명Preamble (128 bytes)파일의 시작을 알리는 공간 (주로 0으로 채워짐).Prefix (4 bytes)..

STONE-08. CT 이미지에서 개인 식별 정보 제거

의료 데이터, 특히 CT 이미지에서 개인 식별 정보(PII: Personally Identifiable Information)를 제거하는 것은 데이터 활용과 보호 사이의 균형을 맞추는 핵심 작업입니다. 인공지능 학습에서 이 과정은 데이터 비식별화(De-identification) 및 익명화(Anonymization)의 필수 단계가 됩니다. CT 이미지의 비식별화는 크게 두 가지 영역에서 이루어집니다.1. DICOM 메타데이터 비식별화 (Header Cleaning)대부분의 CT 이미지는 DICOM(Digital Imaging and Communications in Medicine) 형식으로 저장됩니다. 이 파일의 헤더에는 수많은 태그 정보가 포함되어 있습니다.직접 식별자 제거: 환자 성명(Patient ..

STONE-07. 요로결석 CT 데이터셋: KSSD2025 & Mendeley Data

두 데이터셋은 2025년에 공개된 최신 의료 영상 데이터로, 각각 정밀한 픽셀 단위 추출(Segmentation)과 대규모 특징 학습(Detection/Classification)이라는 뚜렷한 강점을 가지고 있습니다. 두 데이터셋의 상세 스펙과 기술적 활용 방안을 정리합니다.1. KSSD2025 (Kidney Stone Segmentation Dataset)이 데이터셋은 결석의 정확한 형태, 크기, 위치를 픽셀 단위로 발라내는 '세그멘테이션' 기술 고도화에 완벽하게 맞춰진 고품질 데이터입니다.데이터 구성: 838장의 Axial(가로 단면) CT 이미지와 이에 1:1로 매칭되는 정답지인 이진 마스크(Binary Mask) 파일로 구성되어 있습니다.주요 특징:엄선된 고품질 정답지: 기존의 대규모 신장 질환 ..