2025/10/18 3

로지스틱 회귀: 모델, 비용 함수, 파라미터 찾기

1. 문제 정의1.1. 데이터셋로지스틱 회귀에 대한 이해를 돕기 위하여 다음과 같이 두 종류의 데이터셋을 준비하고 설명을 진행합니다.Dataset-A: $$\begin{flalign} x&=\left[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20 \right] \\ y&=[0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1] \end{flalign}$$Dataset-B: $$\begin{flalign} x&=\left[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20 \right] \\ y&=[0,0,0,1,1,0,1,0,1,1,1,1,1,1,1,1,1,1,1,1] \end{flalign}$$위에서 ..

확률(Probability)과 우도(Likelihood): 명확한 개념 비교

통계학을 공부할 때 가장 혼동하기 쉬운 개념 중 하나가 바로 확률(Probability)과 우도(Likelihood)입니다. 두 용어는 일상적으로 비슷하게 사용되지만, 통계적 추론의 세계에서는 근본적으로 다른 관점을 가집니다. 예시를 통한 개념 비교:확률 (모수로부터 관찰값 추정): 상황: 불투명한 주머니 속에 노란공 6개, 파란공 4개가 들어 있다는 사실을 알고 있다. 질문: 한 개의 공을 꺼낼 때 노란공일 가능성은? 우도 (관찰값으로부터 모수 추정):상황: 불투명한 주머니 속에 노란공과 파란공이 함께 들어 있다는 사실을 알고는 있지만 몇 개씩인지는 모른다.질문: 한 개의 공을 꺼냈다가 다시 집어 넣는 동작을 10번 반복했더니 노란공이 4번 나왔다. 그렇다면 주머니 속 노란공과 파란공의 비율이 4:6일..

DistilBERT + KorQuAD MLM 훈련 소요 시간 비교 (RTX 4090, T4, A100)

개요BERT 계열 언어 모델 중 하나인 DistilBERT(논문)로 미세 조정 훈련을 수행할 때 NVIDIA GPU 모델에 따라 훈련에 걸리는 시간이 어떻게 달라지는지 궁금했습니다. 실험에 사용한 모델과 데이터셋은 다음과 같습니다.기본 모델: distilbert-base-multilingual-cased데이터셋: KorQuAD 1.0미세 조정 훈련은 아래의 작업을 목표로 하였습니다.Masked Language Model (MLM) (참고: Fine-tuning a masked language model)GPU 모델 사양훈련 소요 시간 비교를 위해 사용한 NVIDIA GPU 모델은 아래 표와 같습니다.GPU 모델RTX 4090T4A100 (40GB 기준)CUDA 코어 수16,384개2,560개6,912개T..