데이터 분석/회귀 분석

로지스틱 회귀: 오즈비는 모델의 모수에 대한 해석

FedTensor 2025. 10. 25. 12:24
로지스틱 회귀 모델에서 독립 변수($x$)의 값이 1 증가할 때 증가 전후의 오즈(Odds) 값의 비율, 즉 오즈비(Odds Ratio)는 $x$의 계수를 지수로 취한 값($e^\text{계수}$)이다.

왜 $e^{\text{계수}}$가 오즈비인가?

설명을 위해 로지스틱 회귀의 기본 식에서 시작하겠습니다. (독립 변수가 $x$ 하나라고 가정)

 

1.  로지스틱 회귀의 기본 식 (로짓 변환)

 

로지스틱 회귀는 '성공' 확률 $p$가 아니라, '성공'의 로그-오즈(Log-Odds)를 $x$에 대한 선형식으로 모델링합니다.

$$log(Odds) = log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x$$

  • $\beta_0$: 절편 ($x=0$일 때의 로그-오즈)
  • $\beta_1$: $x$의 계수 ($x$가 1 증가할 때 로그-오즈의 증가량)

2. $x$의 값이 1 증가할 때 비교

 

이제 $x$일 때와 $x+1$일 때의 로그-오즈를 각각 계산해 봅니다.

  • $x$일 때:

        $$log(Odds_x) = \beta_0 + \beta_1x$$

  • $x+1$일 때:

        $$log(Odds_{x+1}) = \beta_0 + \beta_1(x+1) = \beta_0 + \beta_1x + \beta_1$$

3. 두 값의 차이 계산 (로그-오즈의 차이)

 

두 식을 빼서 $x$가 1 증가할 때 '로그-오즈'가 얼마나 변하는지 봅니다.

    $$log(Odds_{x+1}) - log(Odds_x) = (\beta_0 + \beta_1x + \beta_1) - (\beta_0 + \beta_1x)$$

    $$log(Odds_{x+1}) - log(Odds_x) = \beta_1$$

4. 로그 법칙 적용 (로그의 뺄셈 → 진수의 나눗셈)

 

로그의 성질($log(A) - log(B) = log(A/B)$)을 이용해 위 식을 하나로 합칩니다.

    $$log\left(\frac{Odds_{x+1}}{Odds_x}\right) = \beta_1$$

5. 오즈비(Odds Ratio) 유도

 

우리가 알고 싶은 것은 "증가 전후의 오즈 값의 비율", 즉 오즈비(Odds Ratio)인 $\frac{Odds_{x+1}}{Odds_x}$입니다. $log$를 없애기 위해 양변에 $e$를 밑으로 하는 지수를 취합니다.

    $$\frac{Odds_{x+1}}{Odds_x} = e^{\beta_1}$$

 

결론:

 

$x$가 1 증가할 때의 오즈비(Odds Ratio)는 $x$의 계수($\beta_1$)에 지수($e$)를 취한 값, 즉 $e^{\beta_1}$과 같습니다.

오즈비(Odds Ratio)의 실제 활용 예시

계수($\beta_1$) 자체는 "로그-오즈"의 변화량이라 직관적으로 해석하기 어렵습니다. 반면 오즈비($e^{\beta_1}$)는 "오즈가 몇 배 변하는가?"를 나타내므로 매우 직관적입니다.

의학 연구 예시: 흡연과 폐암 발병

어떤 병원에서 폐암 발병($Y$)과 하루 평균 흡연량($X$, 단위: 갑)의 관계를 로지스틱 회귀로 분석했다고 가정해 보겠습니다.

  • $Y=1$: 폐암 발병
  • $Y=0$: 폐암 미발병
  • $X$: 하루 평균 흡연량 (갑)

분석 결과, 흡연량($X$)의 계수 $\beta_1$이 0.693으로 나왔습니다.

1. 계수($\beta_1$) 해석 (어려운 해석)

  • 해석: "하루 흡연량이 1갑 증가할 때, 폐암에 걸릴 로그-오즈가 0.693만큼 증가한다."
  • 문제점: '로그-오즈 0.693'이 얼마나 위험한 것인지 아무도 직관적으로 알 수 없습니다.

2. 오즈비($e^{\beta_1}$) 해석 (직관적인 해석)

이제 이 계수로 오즈비를 계산합니다.

  • 오즈비 계산: $e^{\beta_1} = e^{0.693} \approx 2.0$
  • 해석: "하루 흡연량이 1갑 증가할 때, 폐암에 걸릴 오즈(Odds)가 2배 증가한다."

이 해석은 훨씬 강력하고 명확합니다.

3. 구체적인 비교 (활용)

이 오즈비(2.0)를 이용해 다음과 같이 구체적인 비교를 할 수 있습니다.

  • 비흡연자(0갑) vs. 1갑 흡연자:
        1갑 흡연자는 비흡연자보다 폐암에 걸릴 오즈가 2배 높습니다.
  • 1갑 흡연자 vs. 2갑 흡연자:
        2갑 흡연자는 1갑 흡연자보다 폐암에 걸릴 오즈가 2배 높습니다.
  • 비흡연자(0갑) vs. 2갑 흡연자:
        $x$가 2단위 증가했으므로, 오즈비는 $e^{0.693 \times 2} = (e^{0.693})^2 = 2^2 = 4$가 됩니다.
        즉, 2갑 흡연자는 비흡연자보다 폐암에 걸릴 오즈가 4배 높습니다.

이처럼 오즈비($e^{\beta_1}$)는 로지스틱 회귀 모델에서 특정 변수가 결과에 미치는 영향을 "몇 배"라는 직관적인 수치로 설명해 주는 핵심 지표입니다.