데이터 반출 없는 다기관 연합 인공지능 학습 플랫폼

분류 전체보기 193

최근 각광받는 3가지 차원 축소 기법

전통적인 차원 축소 기법들이 데이터의 선형적 구조나 통계적 특성에 기반을 둔다면, 최근의 차원 축소 기법들은 비선형적(Non-linear) 구조, 데이터의 위상(Topology), 그리고 딥러닝을 활용하는 방향으로 발전해 왔습니다.​최근 각광받는 대표적인 차원 축소 기법 세 가지는 다음과 같습니다.1. t-SNE (t-Distributed Stochastic Neighbor Embedding)t-SNE는 고차원 공간에 있는 데이터 포인트 간의 유사도(지역적 구조)를 최대한 보존하면서 2차원이나 3차원과 같은 저차원 공간에 시각화하는 데 매우 강력한 성능을 보이는 기법입니다.핵심 아이디어: 고차원 공간에서 가까운 데이터 포인트들은 저차원 공간에서도 가깝게 유지되도록 만듭니다. 데이터 포인트 간의 유사성을 ..

데이터 분석을 위한 익명화 기법

익명화(Anonymization)는 개인 식별 정보를 제거하거나 변환하여 데이터의 유용성은 유지하면서 개인정보를 안전하게 보호하는 핵심 기술입니다. 본 문서는 성공적인 데이터 익명화를 위해 '왜' 익명화가 필요한지 이해하고, 보호 수준을 측정하는 '무엇(프라이버시 모델)'을 배우며, 이를 구현하는 '어떻게(처리 기법)'를 단계적으로 알아봅니다.1. 주요 용어 정리익명화 기법을 이해하기 전에 몇 가지 핵심 용어를 알아두는 것이 좋습니다.식별자 (Identifier): 그 자체만으로 특정 개인을 바로 알아볼 수 있는 정보입니다. (예: 주민등록번호, 여권번호, 이름, 전화번호)준식별자 (Quasi-identifier): 단독으로는 개인을 식별하기 어렵지만, 다른 정보와 결합하면 특정 개인을 추론할 수 있는 ..

k-익명성 vs. 차등 정보보호: 무엇이, 어떻게 다른가?

개인정보 보호 기술의 세계에는 서로 다른 두 가지 접근법이 존재합니다. 바로 k-익명성(k-anonymity)으로 대표되는 '데이터 익명화'와 차등 정보보호(Differential Privacy)라는 '통계적 프라이버시'입니다.​결론부터 말하자면, 차등 정보보호는 k-익명성, l-다양성, t-근접성과 직접적으로 비교하거나 연관 짓기 어렵습니다. 이 둘은 서로를 대체하는 관계가 아닌, 각기 다른 문제 상황을 해결하기 위한 별개의 도구이기 때문입니다.​핵심 차이점: '데이터'를 보호하는가, '분석 결과'를 보호하는가?두 기술의 가장 큰 차이는 무엇을 보호의 대상으로 삼는지에 있습니다.1. k-익명성 (k-anonymity), l-다양성, t-근접성​"데이터 자체를 수정하여 안전하게 만든다"​이 기법들은 데이..

소프트웨어 개발 생애 주기(SDLC)

소프트웨어 개발 생애 주기(Software Development Life Cycle, SDLC)는 고품질의 소프트웨어를 가장 효율적인 비용과 시간 안에 개발하고 유지보수하기 위해 거치는 전체 과정을 체계적으로 정의한 모델입니다. 간단히 말해, 소프트웨어의 탄생부터 소멸까지의 전 과정을 단계별로 나눈 일종의 '로드맵'이라고 할 수 있습니다.​SDLC는 개발팀이 특정 목표와 계획에 따라 소프트웨어를 설계, 개발, 테스트할 수 있도록 명확한 프레임워크를 제공합니다. 이를 통해 프로젝트의 투명성을 높이고, 예측 가능성을 향상시키며, 최종 제품의 품질을 보장하는 데 중요한 역할을 합니다.SDLC의 주요 단계SDLC는 일반적으로 다음과 같은 핵심 단계를 포함하며, 각 단계는 이전 단계의 결과물을 바탕으로 진행됩니다..

데이터로부터 참값을 찾아가는 과정

인공지능이나 신경망이라고 하면 거대한 서버실에서 복잡한 수식이 오가는 장면이 떠오르지만, 사실 그 본질은 우리가 일상에서 '진실을 찾아가는 과정'과 매우 닮아 있습니다. 기술에 익숙하지 않은 독자들도 쉽게 이해할 수 있도록, '키 측정'이라는 비유를 통해 신경망 학습의 의미를 정리해 보았습니다.AI가 공부하는 법: "당신의 진짜 키는 얼마인가요?"1. 도입: '참값'은 어디에 있는가?우리는 흔히 자신의 키가 175cm라거나 160cm라고 말합니다. 하지만 엄밀히 말해 '키의 참값'이란 무엇일까요? 아침에 잰 키와 저녁에 잰 키가 다르고, 어떤 측정기를 쓰느냐에 따라 소수점 단위가 달라집니다. 우리는 결코 완벽한 참값을 알 수 없습니다. 다만 여러 번 측정해서 얻은 데이터들을 바탕으로 "내 진짜 키는 아마..

가장 완벽한 선 긋기로 이해하는 신경망

인공지능은 어떻게 정답을 찾을까?인공지능, 딥러닝, 신경망... 이름만 들으면 무척 복잡하고 난해한 최첨단 기술처럼 느껴집니다. 하지만 그 안을 들여다보면, 기본 원리는 우리가 학창 시절 배웠던 수학과 크게 다르지 않습니다. 오늘은 2차원 평면 위에 놓인 세 개의 점을 지나는 '가장 알맞은 직선'을 찾아보며, 인공지능이 데이터를 학습하는 두 가지 방법을 쉽고 직관적으로 알아보겠습니다.문제 상황: 세 점을 지나는 완벽한 직선은 없다2차원 평면 위에 세 점 $(1, 2)$, $(2, 3)$, $(3, 5)$가 있다고 상상해 봅시다. 이 세 점을 동시에 완벽하게 관통하는 하나의 직선은 존재하지 않습니다. 따라서 우리의 목표는 이 점들과 가장 오차가 적은(가장 근접하게 지나가는) 직선인 $y = wx + b$를..

09. DICOM 파일 형식과 구조

CT 이미지와 의료용 디지털 영상 표준인 DICOM(Digital Imaging and Communications in Medicine)은 단순히 이미지만 담고 있는 파일이 아니라, 환자 정보, 촬영 장비 설정, 3D 공간 좌표 등 방대한 메타데이터가 포함된 복합 데이터 구조체입니다. 인공지능 모델 개발에 필요한 핵심적인 파일 형식과 내부 구조를 정리합니다.1. DICOM 파일 구조 (The Anatomy of a DICOM File)DICOM 파일은 크게 Preamble(서문), Prefix(접두사), 그리고 수많은 Data Element(데이터 요소)들의 집합으로 구성됩니다.구성 요소설명Preamble (128 bytes)파일의 시작을 알리는 공간 (주로 0으로 채워짐).Prefix (4 bytes)..

08. CT 이미지에서 개인 식별 정보 제거

의료 데이터, 특히 CT 이미지에서 개인 식별 정보(PII: Personally Identifiable Information)를 제거하는 것은 데이터 활용과 보호 사이의 균형을 맞추는 핵심 작업입니다. 인공지능 학습에서 이 과정은 데이터 비식별화(De-identification) 및 익명화(Anonymization)의 필수 단계가 됩니다. CT 이미지의 비식별화는 크게 두 가지 영역에서 이루어집니다.1. DICOM 메타데이터 비식별화 (Header Cleaning)대부분의 CT 이미지는 DICOM(Digital Imaging and Communications in Medicine) 형식으로 저장됩니다. 이 파일의 헤더에는 수많은 태그 정보가 포함되어 있습니다.직접 식별자 제거: 환자 성명(Patient ..

07. 요로결석 CT 데이터셋: KSSD2025 & Mendeley Data

두 데이터셋은 2025년에 공개된 최신 의료 영상 데이터로, 각각 정밀한 픽셀 단위 추출(Segmentation)과 대규모 특징 학습(Detection/Classification)이라는 뚜렷한 강점을 가지고 있습니다. 두 데이터셋의 상세 스펙과 기술적 활용 방안을 정리합니다.1. KSSD2025 (Kidney Stone Segmentation Dataset)이 데이터셋은 결석의 정확한 형태, 크기, 위치를 픽셀 단위로 발라내는 '세그멘테이션' 기술 고도화에 완벽하게 맞춰진 고품질 데이터입니다.데이터 구성: 838장의 Axial(가로 단면) CT 이미지와 이에 1:1로 매칭되는 정답지인 이진 마스크(Binary Mask) 파일로 구성되어 있습니다.이미지 파일 형식: *.tif주요 특징:엄선된 고품질 정답지..

06. CT 이미지로부터 결석을 추출하는 기술 및 모델 소개

CT 이미지에서 결석(Urolithiasis)을 추출하고 정량화하는 기술은 최근 딥러닝 기반의 세그멘테이션(Segmentation) 모델을 중심으로 비약적으로 발전했습니다. 특히 결석은 주변 조직(신장, 요관)에 비해 크기가 매우 작고 비정형적인 경우가 많아, 이를 해결하기 위한 특화된 아키텍처들이 주목받고 있습니다. CT 데이터 전처리에 활용 가능한 기술 및 모델을 소개합니다.1. 추천 인공지능 모델 및 아키텍처① 3D U-Net 및 변형 모델 (표준 아키텍처)의료 영상 분할의 표준인 U-Net은 결석 추출에서도 가장 널리 쓰입니다. 특히 CT의 입체적 정보를 활용하기 위해 3D 버전이 주로 사용됩니다.3D U-Net: 슬라이스 간의 연속성을 학습하여 작은 결석의 위치를 3차원적으로 파악하는 데 탁월합..