로지스틱 회귀 모델에서 독립 변수($x$)의 값이 1 증가할 때 증가 전후의 오즈(Odds) 값의 비율, 즉 오즈비(Odds Ratio)는 $x$의 계수를 지수로 취한 값($e^\text{계수}$)이다.
왜 $e^{\text{계수}}$가 오즈비인가?
설명을 위해 로지스틱 회귀의 기본 식에서 시작하겠습니다. (독립 변수가 $x$ 하나라고 가정)
1. 로지스틱 회귀의 기본 식 (로짓 변환)
로지스틱 회귀는 '성공' 확률 $p$가 아니라, '성공'의 로그-오즈(Log-Odds)를 $x$에 대한 선형식으로 모델링합니다.
$$log(Odds) = log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x$$
- $\beta_0$: 절편 ($x=0$일 때의 로그-오즈)
- $\beta_1$: $x$의 계수 ($x$가 1 증가할 때 로그-오즈의 증가량)
2. $x$의 값이 1 증가할 때 비교
이제 $x$일 때와 $x+1$일 때의 로그-오즈를 각각 계산해 봅니다.
- $x$일 때:
$$log(Odds_x) = \beta_0 + \beta_1x$$
- $x+1$일 때:
$$log(Odds_{x+1}) = \beta_0 + \beta_1(x+1) = \beta_0 + \beta_1x + \beta_1$$
3. 두 값의 차이 계산 (로그-오즈의 차이)
두 식을 빼서 $x$가 1 증가할 때 '로그-오즈'가 얼마나 변하는지 봅니다.
$$log(Odds_{x+1}) - log(Odds_x) = (\beta_0 + \beta_1x + \beta_1) - (\beta_0 + \beta_1x)$$
$$log(Odds_{x+1}) - log(Odds_x) = \beta_1$$
4. 로그 법칙 적용 (로그의 뺄셈 → 진수의 나눗셈)
로그의 성질($log(A) - log(B) = log(A/B)$)을 이용해 위 식을 하나로 합칩니다.
$$log\left(\frac{Odds_{x+1}}{Odds_x}\right) = \beta_1$$
5. 오즈비(Odds Ratio) 유도
우리가 알고 싶은 것은 "증가 전후의 오즈 값의 비율", 즉 오즈비(Odds Ratio)인 $\frac{Odds_{x+1}}{Odds_x}$입니다. $log$를 없애기 위해 양변에 $e$를 밑으로 하는 지수를 취합니다.
$$\frac{Odds_{x+1}}{Odds_x} = e^{\beta_1}$$
결론:
$x$가 1 증가할 때의 오즈비(Odds Ratio)는 $x$의 계수($\beta_1$)에 지수($e$)를 취한 값, 즉 $e^{\beta_1}$과 같습니다.
오즈비(Odds Ratio)의 실제 활용 예시
계수($\beta_1$) 자체는 "로그-오즈"의 변화량이라 직관적으로 해석하기 어렵습니다. 반면 오즈비($e^{\beta_1}$)는 "오즈가 몇 배 변하는가?"를 나타내므로 매우 직관적입니다.
의학 연구 예시: 흡연과 폐암 발병
어떤 병원에서 폐암 발병($Y$)과 하루 평균 흡연량($X$, 단위: 갑)의 관계를 로지스틱 회귀로 분석했다고 가정해 보겠습니다.
- $Y=1$: 폐암 발병
- $Y=0$: 폐암 미발병
- $X$: 하루 평균 흡연량 (갑)
분석 결과, 흡연량($X$)의 계수 $\beta_1$이 0.693으로 나왔습니다.
1. 계수($\beta_1$) 해석 (어려운 해석)
- 해석: "하루 흡연량이 1갑 증가할 때, 폐암에 걸릴 로그-오즈가 0.693만큼 증가한다."
- 문제점: '로그-오즈 0.693'이 얼마나 위험한 것인지 아무도 직관적으로 알 수 없습니다.
2. 오즈비($e^{\beta_1}$) 해석 (직관적인 해석)
이제 이 계수로 오즈비를 계산합니다.
- 오즈비 계산: $e^{\beta_1} = e^{0.693} \approx 2.0$
- 해석: "하루 흡연량이 1갑 증가할 때, 폐암에 걸릴 오즈(Odds)가 2배 증가한다."
이 해석은 훨씬 강력하고 명확합니다.
3. 구체적인 비교 (활용)
이 오즈비(2.0)를 이용해 다음과 같이 구체적인 비교를 할 수 있습니다.
- 비흡연자(0갑) vs. 1갑 흡연자:
1갑 흡연자는 비흡연자보다 폐암에 걸릴 오즈가 2배 높습니다. - 1갑 흡연자 vs. 2갑 흡연자:
2갑 흡연자는 1갑 흡연자보다 폐암에 걸릴 오즈가 2배 높습니다. - 비흡연자(0갑) vs. 2갑 흡연자:
$x$가 2단위 증가했으므로, 오즈비는 $e^{0.693 \times 2} = (e^{0.693})^2 = 2^2 = 4$가 됩니다.
즉, 2갑 흡연자는 비흡연자보다 폐암에 걸릴 오즈가 4배 높습니다.
이처럼 오즈비($e^{\beta_1}$)는 로지스틱 회귀 모델에서 특정 변수가 결과에 미치는 영향을 "몇 배"라는 직관적인 수치로 설명해 주는 핵심 지표입니다.
'데이터 분석 > 회귀 분석' 카테고리의 다른 글
| 로지스틱과 로짓의 어원 (0) | 2025.10.25 |
|---|---|
| 베르훌스트의 인구 증가 모델과 로지스틱 곡선 (0) | 2025.10.25 |
| 로지스틱 회귀: 오즈(Odds)와 오즈비(Odds Ratio) (0) | 2025.10.20 |
| 로지스틱 회귀: 오즈, 로짓 함수, 로지스틱 함수의 관계 (0) | 2025.10.19 |
| 로지스틱 회귀: 모델, 비용 함수, 파라미터 찾기 (0) | 2025.10.18 |