데이터 분석/회귀 분석 8

로지스틱 회귀: 오즈비는 모델의 모수에 대한 해석

로지스틱 회귀 모델에서 독립 변수($x$)의 값이 1 증가할 때 증가 전후의 오즈(Odds) 값의 비율, 즉 오즈비(Odds Ratio)는 $x$의 계수를 지수로 취한 값($e^\text{계수}$)이다.왜 $e^{\text{계수}}$가 오즈비인가?설명을 위해 로지스틱 회귀의 기본 식에서 시작하겠습니다. (독립 변수가 $x$ 하나라고 가정) 1. 로지스틱 회귀의 기본 식 (로짓 변환) 로지스틱 회귀는 '성공' 확률 $p$가 아니라, '성공'의 로그-오즈(Log-Odds)를 $x$에 대한 선형식으로 모델링합니다.$$log(Odds) = log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x$$$\beta_0$: 절편 ($x=0$일 때의 로그-오즈)$\beta_1$: $x..

로지스틱과 로짓의 어원

logistic과 logit은 통계학에서 밀접하게 연결되어 있지만, 어원적으로는 서로 다른 시기에 다른 인물에 의해 만들어졌습니다. logit이 logistic에서 파생되었습니다.1. Logistic (로지스틱)logistic이라는 단어가 통계학의 S자형 곡선(로지스틱 함수)을 지칭하게 된 것은 logit보다 약 100년 정도 빠릅니다.창시자: 벨기에의 수학자 피에르 프랑수아 베르훌스트 (Pierre François Verhulst)시기: 1830년대 ~ 1840년대 어원: 베르훌스트는 인구 증가 모델을 설명하기 위해 이 S자형 곡선을 "로지스틱 곡선(logistic curve)"이라고 명명했습니다.그가 왜 이 이름을 선택했는지는 명확히 밝히지 않았지만, 가장 유력한 어원은 그리스어 logistikos(..

베르훌스트의 인구 증가 모델과 로지스틱 곡선

베르훌스트(Verhulst)의 인구 증가 모델은 로지스틱 곡선(Logistic Curve)으로 알려진, 현실적인 인구 성장 패턴을 설명하는 핵심적인 수학 모델입니다. 1838년 벨기에의 수학자 피에르 프랑수아 베르훌스트가 제안했습니다. 이 모델이 중요한 이유는, 자원이 무한하다고 가정한 '지수 성장 모델'의 한계를 보완하고 '환경 수용력'이라는 현실적인 제약 조건을 도입했기 때문입니다.1. 지수 성장 vs. 로지스틱 성장 이해를 돕기 위해 먼저 간단한 지수 성장(Exponential Growth) 모델과 비교해 보겠습니다.지수 성장 모델 (J-자형 곡선):가정: 자원(먹이, 공간 등)이 무한하다. 특징: 인구가 많을수록 성장 속도도 비례해서 계속 빨라집니다. 문제점: 현실에서는 자원이 한정되어 있어 무한..

로지스틱 회귀: 오즈(Odds)와 오즈비(Odds Ratio)

로지스틱 회귀 분석을 이해하는 데 가장 기본이 되는 오즈(Odds)와 오즈비(Odds Ratio)에 대해 자세히 설명해 드리겠습니다. 이 두 개념은 확률(Probability)을 통계 모델(특히, 선형 모델)에서 더 다루기 쉬운 형태로 변환하고, 그 결과를 해석하는 데 핵심적인 역할을 합니다.1. 오즈 (Odds)오즈(Odds)는 "어떤 일이 일어나지 않을 확률 대비 일어날 확률의 비율"을 의미합니다.확률(Probability)과의 차이:확률 (P): 전체 시도 중 특정 사건이 일어날 비율 ($P$). 범위: [0, 1]오즈 (Odds): 실패 확률 대비 성공 확률의 비율. 범위: [0, $\infty$]수식: 어떤 사건이 일어날 확률을 $P$라고 할 때, 오즈는 다음과 같이 계산됩니다.$$Odds = ..

로지스틱 회귀: 오즈, 로짓 함수, 로지스틱 함수의 관계

오즈, 로짓 함수, 로지스틱 함수는 로지스틱 회귀가 선형 모델의 결과를 (0, 1) 사이의 확률로 어떻게 변환하는지를 보여주는 중요한 요소들입니다.1. 오즈 (Odds)오즈는 어떤 사건이 일어날 확률을 일어나지 않을 확률로 나눈 값입니다. 확률과 비슷한 개념이지만, 표현 방식이 다릅니다.확률 ($p$): 전체 시도 중 특정 사건이 일어날 비율 (0과 1 사이의 값)오즈: 성공 확률과 실패 확률의 비율 (0과 무한대 사이의 값)수식으로 표현하면 다음과 같습니다.$$\text{Odds} = \frac{p}{1-p}$$여기서 $p$는 사건이 일어날 확률입니다. 예시어떤 팀의 경기 승리 확률($p$)이 80% (0.8)라고 가정해 보겠습니다.승리하지 못할 확률($1-p$)은 20% (0.2)입니다.이때 오즈는 ..

로지스틱 회귀: 모델, 비용 함수, 파라미터 찾기

1. 문제 정의1.1. 데이터셋로지스틱 회귀에 대한 이해를 돕기 위하여 다음과 같이 두 종류의 데이터셋을 준비하고 설명을 진행합니다.Dataset-A: $$\begin{flalign} x&=\left[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20 \right] \\ y&=[0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1] \end{flalign}$$Dataset-B: $$\begin{flalign} x&=\left[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20 \right] \\ y&=[0,0,0,1,1,0,1,0,1,1,1,1,1,1,1,1,1,1,1,1] \end{flalign}$$위에서 ..

선형 회귀 분석의 이해

1. 회귀 분석이란?회귀 분석(Regression Analysis)은 변수들 사이의 관계를 모델링하는 통계적 방법입니다. 가장 단순한 예로, '집의 크기'를 알 때 '집의 가격'을 예측하는 모델을 만들 수 있습니다. 이처럼 하나의 변수(독립 변수)를 사용하여 다른 변수(종속 변수)의 값을 예측하는 것이 회귀 분석의 핵심입니다. ​회귀 분석 과정은 다음 세 단계로 요약할 수 있습니다.데이터 준비: 예측 모델을 학습시키기 위한 훈련 데이터 세트 $(x, y)$를 준비합니다. 여기서 $x$는 예측에 사용될 독립 변수이고, $y$는 예측하고자 하는 종속 변수입니다.모델 학습: 훈련 데이터를 가장 잘 표현하는 수학적 모델을 정의하고, 데이터에 가장 근접한 예측을 하는 최적의 파라미터(parameter)를 찾습니다..

회귀(Regression)라는 용어를 쉽게 설명하는 방법

조별 단체 식사 준비 상황을 예로 들어 회귀라는 용어에 대해 설명합니다. 그리고 회귀라는 용어가 어렵게 느껴지는 이유는 무엇이며 어떻게 하면 쉽게 받아들여질 수 있는지도 살펴봅니다.조별 단체 식사 준비와 회귀 현상 발생100명 정도의 인원이 매주 일요일 함께 모여 점심 식사를 합니다. 조를 짜서 식사를 준비하는 상황에서 일어나는 현상을 통해 회귀라는 용어가 무엇을 의미하는지 설명합니다.10개 조가 조별로 두 주 연속으로 일요일 단체 점심 식사를 준비한다. 한 끼 점심 식사 준비를 위해 지원받는 비용은 15만원이다. 이보다 덜 쓰면 반납하고 더 쓰면 조에서 부담한다. 오늘 점심 식사를 준비한 조에 대한 칭찬이 자자하다. 최근 들어 식사에 대한 만족도가 높아지고 있다는 생각이 든다. 내가 속한 조에서는 몇 ..