데이터 반출 없는 다기관 연합 인공지능 학습 플랫폼

분류 전체보기 193

두 벡터의 내적의 분산 구하기

1. 문제의 전제 조건 정의먼저, 우리가 가진 조건들을 수학적으로 정리해 보겠습니다.$n$차원의 두 벡터 $\mathbf{a}$와 $\mathbf{b}$가 있습니다. $\mathbf{a} = (a_1, a_2, \ldots, a_n)$$\mathbf{b} = (b_1, b_2, \ldots, b_n)$각 벡터의 성분 $a_i$와 $b_j$는 모두 독립적인 확률 변수라고 가정합니다. (이 가정이 매우 중요합니다!)각 성분의 평균(기대값)은 0입니다. $E[a_i] = 0$ (모든 $i$에 대해)$E[b_i] = 0$ (모든 $i$에 대해)각 성분의 분산은 1입니다. $Var(a_i) = 1$ (모든 $i$에 대해)$Var(b_i) = 1$ (모든 $i$에 대해)2. 목표: 내적의 분산우리가 구하려는 것은 ..

데이터 시각화 핵심 방법론 및 원칙

데이터를 단순히 나열하는 것을 넘어, 숨겨진 의미와 스토리를 발견하고 효과적으로 전달하기 위한 데이터 시각화. 세계적인 전문가 3인의 핵심 이론을 통해 그 방법론과 원칙을 소개합니다.1. 벤 프라이 (Ben Fry): 데이터에서 인사이트까지의 여정"데이터를 의미 있는 정보로 시각화하는 체계적인 7단계 프로세스" 벤 프라이는 데이터를 수집하는 것부터 사용자와 상호작용하는 최종 결과물에 이르기까지, 전 과정을 7개의 논리적 단계로 정의했습니다. 이 방법론을 따르면 데이터의 잠재력을 최대한 이끌어낼 수 있습니다.획득 (Acquire): 원석(데이터)을 모으는 단계 설명: 시각화의 대상이 될 데이터를 수집합니다. 데이터는 파일, 데이터베이스, 웹 API 등 다양한 형태로 존재할 수 있습니다. 예시: 온라인 쇼핑..

데이터 시각화 유형

데이터가 넘쳐나는 시대에, 숫자 그 자체만으로는 숨겨진 의미를 파악하기 어렵습니다. 데이터 시각화는 복잡한 데이터를 이해하기 쉬운 이미지로 변환하여 인사이트를 발견하고, 설득력 있는 이야기를 전달하는 가장 강력한 도구입니다. 이 문서는 효과적인 데이터 시각화를 위해 알아야 할 핵심 유형을 소개합니다. 어떤 차트를 선택해야 할지 고민된다면, 데이터로 무엇을 보여주고 싶은지 먼저 자문해보세요. 항목 간의 '비교'가 중요한가요? 변수 간의 '관계'를 찾고 있나요? 데이터의 '분포'를 파악하고 싶나요? 아니면 전체에 대한 각 부분의 '구성' 비율을 보여줘야 하나요? 이 질문에 따라 가장 효과적인 시각화 유형이 결정됩니다.시간 시각화 (Temporal Visualization)시간의 흐름에 따른 데이터 변화를 표..

로지스틱 회귀: 오즈(Odds)와 오즈비(Odds Ratio)

로지스틱 회귀 분석을 이해하는 데 가장 기본이 되는 오즈(Odds)와 오즈비(Odds Ratio)에 대해 자세히 설명해 드리겠습니다. 이 두 개념은 확률(Probability)을 통계 모델(특히, 선형 모델)에서 더 다루기 쉬운 형태로 변환하고, 그 결과를 해석하는 데 핵심적인 역할을 합니다.1. 오즈 (Odds)오즈(Odds)는 "어떤 일이 일어나지 않을 확률 대비 일어날 확률의 비율"을 의미합니다.확률(Probability)과의 차이:확률 (P): 전체 시도 중 특정 사건이 일어날 비율 ($P$). 범위: [0, 1]오즈 (Odds): 실패 확률 대비 성공 확률의 비율. 범위: [0, $\infty$]수식: 어떤 사건이 일어날 확률을 $P$라고 할 때, 오즈는 다음과 같이 계산됩니다.$$Odds = ..

로지스틱 회귀: 오즈, 로짓 함수, 로지스틱 함수의 관계

오즈, 로짓 함수, 로지스틱 함수는 로지스틱 회귀가 선형 모델의 결과를 (0, 1) 사이의 확률로 어떻게 변환하는지를 보여주는 중요한 요소들입니다.1. 오즈 (Odds)오즈는 어떤 사건이 일어날 확률을 일어나지 않을 확률로 나눈 값입니다. 확률과 비슷한 개념이지만, 표현 방식이 다릅니다.확률 ($p$): 전체 시도 중 특정 사건이 일어날 비율 (0과 1 사이의 값)오즈: 성공 확률과 실패 확률의 비율 (0과 무한대 사이의 값)수식으로 표현하면 다음과 같습니다.$$\text{Odds} = \frac{p}{1-p}$$여기서 $p$는 사건이 일어날 확률입니다. 예시어떤 팀의 경기 승리 확률($p$)이 80% (0.8)라고 가정해 보겠습니다.승리하지 못할 확률($1-p$)은 20% (0.2)입니다.이때 오즈는 ..

로지스틱 회귀: 모델, 비용 함수, 파라미터 찾기

1. 문제 정의1.1. 데이터셋로지스틱 회귀에 대한 이해를 돕기 위하여 다음과 같이 두 종류의 데이터셋을 준비하고 설명을 진행합니다.Dataset-A: $$\begin{flalign} x&=\left[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20 \right] \\ y&=[0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1] \end{flalign}$$Dataset-B: $$\begin{flalign} x&=\left[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20 \right] \\ y&=[0,0,0,1,1,0,1,0,1,1,1,1,1,1,1,1,1,1,1,1] \end{flalign}$$위에서 ..

확률(Probability)과 우도(Likelihood): 명확한 개념 비교

통계학을 공부할 때 가장 혼동하기 쉬운 개념 중 하나가 바로 확률(Probability)과 우도(Likelihood)입니다. 두 용어는 일상적으로 비슷하게 사용되지만, 통계적 추론의 세계에서는 근본적으로 다른 관점을 가집니다. 예시를 통한 개념 비교:확률 (모수로부터 관찰값 추정): 상황: 불투명한 주머니 속에 노란공 6개, 파란공 4개가 들어 있다는 사실을 알고 있다. 질문: 한 개의 공을 꺼낼 때 노란공일 가능성은? 우도 (관찰값으로부터 모수 추정):상황: 불투명한 주머니 속에 노란공과 파란공이 함께 들어 있다는 사실을 알고는 있지만 몇 개씩인지는 모른다.질문: 한 개의 공을 꺼냈다가 다시 집어 넣는 동작을 10번 반복했더니 노란공이 4번 나왔다. 그렇다면 주머니 속 노란공과 파란공의 비율이 4:6일..

DistilBERT + KorQuAD MLM 훈련 소요 시간 비교 (RTX 4090, T4, A100)

개요BERT 계열 언어 모델 중 하나인 DistilBERT(논문)로 미세 조정 훈련을 수행할 때 NVIDIA GPU 모델에 따라 훈련에 걸리는 시간이 어떻게 달라지는지 궁금했습니다. 실험에 사용한 모델과 데이터셋은 다음과 같습니다.기본 모델: distilbert-base-multilingual-cased데이터셋: KorQuAD 1.0미세 조정 훈련은 아래의 작업을 목표로 하였습니다.Masked Language Model (MLM) (참고: Fine-tuning a masked language model)GPU 모델 사양훈련 소요 시간 비교를 위해 사용한 NVIDIA GPU 모델은 아래 표와 같습니다.GPU 모델RTX 4090T4A100 (40GB 기준)CUDA 코어 수16,384개2,560개6,912개T..

선형 회귀 분석의 이해

1. 회귀 분석이란?회귀 분석(Regression Analysis)은 변수들 사이의 관계를 모델링하는 통계적 방법입니다. 가장 단순한 예로, '집의 크기'를 알 때 '집의 가격'을 예측하는 모델을 만들 수 있습니다. 이처럼 하나의 변수(독립 변수)를 사용하여 다른 변수(종속 변수)의 값을 예측하는 것이 회귀 분석의 핵심입니다. ​회귀 분석 과정은 다음 세 단계로 요약할 수 있습니다.데이터 준비: 예측 모델을 학습시키기 위한 훈련 데이터 세트 $(x, y)$를 준비합니다. 여기서 $x$는 예측에 사용될 독립 변수이고, $y$는 예측하고자 하는 종속 변수입니다.모델 학습: 훈련 데이터를 가장 잘 표현하는 수학적 모델을 정의하고, 데이터에 가장 근접한 예측을 하는 최적의 파라미터(parameter)를 찾습니다..

회귀(Regression)라는 용어를 쉽게 설명하기

조별 단체 식사 준비와 회귀 현상 발생조별 단체 식사 준비 상황을 예로 들어 회귀라는 용어에 대해 설명합니다. 그리고 회귀라는 용어가 어렵게 느껴지는 이유는 무엇이며 어떻게 하면 쉽게 받아들여질 수 있는지도 살펴봅니다. 100명 정도의 인원이 매주 일요일 함께 모여 점심 식사를 합니다. 조를 짜서 식사를 준비하는 상황에서 일어나는 현상을 통해 회귀라는 용어가 무엇을 의미하는지 설명합니다.10개 조가 조별로 두 주 연속으로 일요일 단체 점심 식사를 준비한다.한 끼 점심 식사 준비를 위해 지원받는 비용은 15만원이다. 이보다 덜 쓰면 반납하고 더 쓰면 조에서 부담한다.오늘 점심 식사를 준비한 조에 대한 칭찬이 자자하다. 최근 들어 식사에 대한 만족도가 높아지고 있다는 생각이 든다.내가 속한 조에서는 몇 주 ..