데이터 분석/회귀 분석

로지스틱 회귀: 오즈(Odds)와 오즈비(Odds Ratio)

FedTensor 2025. 10. 20. 10:30

로지스틱 회귀 분석을 이해하는 데 가장 기본이 되는 오즈(Odds)와 오즈비(Odds Ratio)에 대해 자세히 설명해 드리겠습니다.

이 두 개념은 확률(Probability)을 통계 모델(특히, 선형 모델)에서 더 다루기 쉬운 형태로 변환하고, 그 결과를 해석하는 데 핵심적인 역할을 합니다.

1. 오즈 (Odds)

오즈(Odds)는 "어떤 일이 일어나지 않을 확률 대비 일어날 확률의 비율"을 의미합니다.

  • 확률(Probability)과의 차이:
    • 확률 (P): 전체 시도 중 특정 사건이 일어날 비율 ($P$). 범위: [0, 1]
    • 오즈 (Odds): 실패 확률 대비 성공 확률의 비율. 범위: [0, $\infty$]
  • 수식: 어떤 사건이 일어날 확률을 $P$라고 할 때, 오즈는 다음과 같이 계산됩니다.

$$Odds = \frac{P}{1 - P} = \frac{\text{성공 확률}}{\text{실패 확률}}$$

확률에 따른 오즈의 변화

예시로 이해하기

예시 1: 비가 올 확률이 80% ($P=0.8$)인 경우

  • 확률: 0.8 (10번 중 8번 꼴)
  • 실패 확률: $1 - 0.8 = 0.2$
  • 오즈: $\frac{0.8}{0.2} = 4$
  • 해석: "비가 오지 않을 확률보다 비가 올 확률이 4배 높다" 또는 "비가 올 오즈는 4이다."

예시 2: 주사위를 굴려 1이 나올 확률 ($P=1/6$)인 경우

  • 확률: 1/6 (약 16.7%)
  • 실패 확률 (1이 안 나올 확률): $1 - (1/6) = 5/6$
  • 오즈: $\frac{1/6}{5/6} = \frac{1}{5} = 0.2$
  • 해석: "1이 나올 오즈는 0.2이다." (즉, 1이 나오지 않을 가능성이 5배 더 높습니다.)

특징:

  • 확률 $P = 0.5$ (동전 앞면) $\rightarrow$ 오즈 = $\frac{0.5}{0.5} = 1$ (성공과 실패가 같음)
  • 확률 $P \rightarrow 1$ (거의 확실) $\rightarrow$ 오즈 $\rightarrow \infty$ (무한대로 발산)
  • 확률 $P \rightarrow 0$ (거의 불가능) $\rightarrow$ 오즈 $\rightarrow 0$

[참고] 로짓 변환 (Logit)

이 오즈 값에 자연로그($\ln$)를 취한 것이 바로 로짓(Logit)입니다.
$$\text{logit}(P) = \ln(Odds) = \ln\left(\frac{P}{1 - P}\right)$$

  • 오즈의 범위는 [0, $\infty$]였지만, 로짓의 범위는 [$-\infty$, $+\infty$]가 됩니다.
  • 이로써 로지스틱 회귀는 [0, 1] 범위의 확률을 실수 전체 범위로 변환하여 선형 모델($\beta_0 + \beta_1X$)에 연결(link)할 수 있게 됩니다.

확률에 따른 로짓의 변화

2. 오즈비 (Odds Ratio, OR)

오즈비(Odds Ratio, OR)는 말 그대로 "두 그룹 간의 오즈(Odds)를 나눈 비율(Ratio)"입니다.

즉, 어떤 조건에 노출된 그룹(Group1)의 오즈가 노출되지 않은 그룹(Group2)의 오즈보다 몇 배나 높은지를 나타내는 상대적인 위험도의 척도입니다.

  • 수식:   

$$OR = \frac{Odds_{\text{Group1}}}{Odds_{\text{Group2}}} = \frac{P_1 / (1 - P_1)}{P_2 / (1 - P_2)}$$

예시로 이해하기 (2x2 분할표)

시험 공부 여부(X)에 따른 합격 여부(Y)를 조사했다고 가정해 봅시다.

  합격 (Y=1) 불합격 (Y=0)
공부함 (X=1) 90명 (a) 10명 (b)
공부 안 함 (X=0) 60명 (c) 40명 (d)

 

1. "공부한 그룹(X=1)"의 합격 오즈 ($Odds_1$)

  • 합격 확률 $P_1 = \frac{90}{90+10} = 0.9$
  • $Odds_1 = \frac{0.9}{1 - 0.9} = \frac{0.9}{0.1} = 9$
  • (또는 간단히 $\frac{a}{b} = \frac{90}{10} = 9$)
  • 해석: 공부한 그룹은 불합격 대비 합격할 가능성이 9배 높습니다.

2. "공부 안 한 그룹(X=0)"의 합격 오즈 ($Odds_0$)

  • 합격 확률 $P_0 = \frac{60}{60+40} = 0.6$
  • $Odds_0 = \frac{0.6}{1 - 0.6} = \frac{0.6}{0.4} = 1.5$
  • (또는 간단히 $\frac{c}{d} = \frac{60}{40} = 1.5$)
  • 해석: 공부 안 한 그룹은 불합격 대비 합격할 가능성이 1.5배 높습니다.

3. 두 그룹 간의 오즈비 (Odds Ratio)

  • $OR = \frac{Odds_1}{Odds_0} = \frac{9}{1.5} = 6$
  • (또는 간단히 $\frac{a/b}{c/d} = \frac{ad}{bc} = \frac{90 \times 40}{10 \times 60} = \frac{3600}{600} = 6$)

최종 해석:
"시험 공부를 한 학생 그룹이 합격할 오즈는, 공부를 하지 않은 학생 그룹보다 6배 높습니다."

오즈비(OR) 해석 방법

  • $OR > 1$ (예: $OR=6$)
    • 해당 변수(X=1)가 결과(Y=1)가 발생할 오즈를 증가시킵니다.
    • "공부를 하면 합격 오즈가 6배 높아진다." (긍정적 연관성)
  • $OR < 1$ (예: $OR=0.3$)
    • 해당 변수(X=1)가 결과(Y=1)가 발생할 오즈를 감소시킵니다.
    • "흡연을 하면(X=1) 건강할(Y=1) 오즈가 0.3배가 된다 (즉, 70% 감소한다)." (부정적 연관성)
  • $OR = 1$
    • 해당 변수(X)는 결과(Y)의 오즈에 아무런 영향을 주지 않습니다. (연관성 없음)

3. 로지스틱 회귀와 오즈비 (핵심)

로지스틱 회귀 분석의 결과를 해석할 때 오즈비가 결정적인 역할을 합니다.

로지스틱 회귀 모델은 다음과 같습니다.

$$\text{logit}(P) = \ln(Odds) = \beta_0 + \beta_1X_1$$

여기서 $X_1$이 1단위 증가할 때 오즈가 어떻게 변하는지 보겠습니다.

  1. $X_1$일 때의 로그 오즈: $\ln(Odds_1) = \beta_0 + \beta_1(X_1)$
  2. $X_1+1$일 때의 로그 오즈: $\ln(Odds_2) = \beta_0 + \beta_1(X_1 + 1)$

두 식을 빼면:

$$\ln(Odds_2) - \ln(Odds_1) = (\beta_0 + \beta_1X_1 + \beta_1) - (\beta_0 + \beta_1X_1)$$

$$\ln\left(\frac{Odds_2}{Odds_1}\right) = \beta_1$$
로그의 정의에 따라, $\frac{Odds_2}{Odds_1}$는 바로 오즈비(Odds Ratio)입니다.

$$OR = e^{\beta_1}$$

이것이 가장 중요한 결론입니다.

로지스틱 회귀 분석에서 얻은 계수 $\beta_1$에 지수($e^x$)를 취하면, 그것이 바로 "다른 변수가 고정일 때, 해당 변수 $X_1$이 1단위 증가할 때마다 결과(Y=1)가 발생할 오즈가 몇 배가 되는지"를 나타내는 오즈비(OR)가 됩니다.

(예: 흡연 여부를 예측하는 모델에서 $\beta_{\text{흡연}} = 1.609$ 라면, $OR = e^{1.609} \approx 5$가 됩니다. 이는 "다른 조건이 같다면, 흡연자는 비흡연자에 비해 폐암에 걸릴 오즈가 5배 높다"라고 해석합니다.)