수학 20

이항분포 -> 푸아송 분포

푸아송 분포(Poisson Distribution)는 이항분포(Binomial Distribution)의 특수한 극한 형태로 유도하는 것이 가장 일반적이고 직관적입니다. 단위 시간(또는 단위 공간) 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이 분포는, "시행 횟수($n$)는 무수히 많고, 발생 확률($p$)은 매우 희박할 때"의 확률 분포입니다. 다음은 이항분포에서 출발하여 푸아송 분포의 수식을 유도하는 단계별 과정입니다.1. 기본 설정: 이항분포에서 출발먼저, 확률 변수 $X$가 시행 횟수 $n$, 성공 확률 $p$인 이항분포를 따른다고 가정합니다.$$X \sim B(n, p)$$이때 $k$번 성공할 확률 질량 함수(PMF)는 다음과 같습니다.$$P(X=k) = \binom{n}{k} p^k ..

이항 분포에서 Non-IID까지: 확률 분포의 연결 고리와 응용

1) 이항 분포 -> 2) 푸아송 분포 -> 3) 지수 분포 -> 4) 감마 분포 -> 5) 디리클레 분포 -> 6) Non-IID 데이터 시뮬레이션 확률 분포들이 서로 어떻게 연결되어 있는지 이해하는 것은 통계적 모델링과 데이터 시뮬레이션, 특히 머신러닝의 데이터 분포를 이해하는 데 매우 중요합니다. 위 여섯 단계는 '이산(Discrete)에서 연속(Continuous)으로', 그리고 '단일 사건에서 다변량 비율(Multivariate Proportion)로' 확장되는 흐름을 가지고 있습니다. 이 문서에서는 각 단계의 핵심 개념과 수식적 관계, 그리고 마지막으로 이를 활용한 Non-IID 데이터 시뮬레이션까지 설명합니다.1. 이항 분포(Binomial) $\rightarrow$ 푸아송 분포(Poisso..

푸아송 과정(Poisson Process)

푸아송 과정(Poisson Process)은 확률론과 통계학에서 시간에 따라 무작위로 발생하는 사건(Events)을 모델링하는 가장 대표적인 확률 과정(Stochastic Process)입니다. 쉽게 말해, "평균적으로 일정한 속도로 발생하지만, 정확한 발생 시점은 예측할 수 없는 사건들의 흐름"을 설명하는 도구입니다.1. 직관적인 정의어떤 사건이 매우 드물게, 그리고 서로 독립적으로 발생한다고 가정해 봅시다. 예를 들어:콜센터에 걸려오는 상담 전화웹사이트에 접속하는 방문자 수방사능 물질에서 방출되는 입자이러한 사건들이 시간에 따라 점(point)처럼 찍히는 과정을 수학적으로 표현한 것이 푸아송 과정입니다.2. 성립 조건 (3가지 핵심 가정)푸아송 과정이 되기 위해서는 다음의 세 가지 조건(Axioms)..

두 벡터의 내적의 분산 구하기

1. 문제의 전제 조건 정의먼저, 우리가 가진 조건들을 수학적으로 정리해 보겠습니다.$n$차원의 두 벡터 $\mathbf{a}$와 $\mathbf{b}$가 있습니다. $\mathbf{a} = (a_1, a_2, \ldots, a_n)$$\mathbf{b} = (b_1, b_2, \ldots, b_n)$각 벡터의 성분 $a_i$와 $b_j$는 모두 독립적인 확률 변수라고 가정합니다. (이 가정이 매우 중요합니다!)각 성분의 평균(기대값)은 0입니다. $E[a_i] = 0$ (모든 $i$에 대해)$E[b_i] = 0$ (모든 $i$에 대해)각 성분의 분산은 1입니다. $Var(a_i) = 1$ (모든 $i$에 대해)$Var(b_i) = 1$ (모든 $i$에 대해)2. 목표: 내적의 분산우리가 구하려는 것은 ..

확률(Probability)과 우도(Likelihood): 명확한 개념 비교

통계학을 공부할 때 가장 혼동하기 쉬운 개념 중 하나가 바로 확률(Probability)과 우도(Likelihood)입니다. 두 용어는 일상적으로 비슷하게 사용되지만, 통계적 추론의 세계에서는 근본적으로 다른 관점을 가집니다. 예시를 통한 개념 비교:확률 (모수로부터 관찰값 추정): 상황: 불투명한 주머니 속에 노란공 6개, 파란공 4개가 들어 있다는 사실을 알고 있다. 질문: 한 개의 공을 꺼낼 때 노란공일 가능성은? 우도 (관찰값으로부터 모수 추정):상황: 불투명한 주머니 속에 노란공과 파란공이 함께 들어 있다는 사실을 알고는 있지만 몇 개씩인지는 모른다.질문: 한 개의 공을 꺼냈다가 다시 집어 넣는 동작을 10번 반복했더니 노란공이 4번 나왔다. 그렇다면 주머니 속 노란공과 파란공의 비율이 4:6일..

유방암 양성예측도, 베이지안 추론으로 설명하기

이 글에서는 유방암 진단 결과가 양성으로 나온 경우 실제로 유방암에 걸렸을 확률을 계산하는 식을 유도합니다. 또한 진단을 전후하여 달라지는 확률에 대하여 베이지안 추론 방식으로 설명해 보고자 합니다.문제 정의관심 대상군에 속하는 여성의 1%가 유방암에 걸린다고 알려져 있습니다. 병원을 방문한 어떤 여성의 진단 결과가 양성으로 나왔고 진단에 사용한 장비의 민감도는 90 %, 특이도는 85% 입니다. 그렇다면 그 여성이 실제로 유방암에 걸렸을 확률은 얼마입니까?진단 장비의 성능혼동행렬(Confusion Matrix)진단 장비의 성능을 파악하기 위하여 질병의 유무를 알고 있는 사람들을 대상으로 진단을 수행하고 아래와 같이 혼동행렬을 작성합니다.A: 진양성(True Positive) 수B: 위양성(False P..

몬티 홀 문제, 베이지안 추론으로 설명하기

몬티 홀 문제를 풀고 이에 대하여 베이지안 추론 방식으로 설명해 보고자 합니다.몬티 홀 문제세 개의 문이 있고 한 개의 문 뒤에는 자동차, 나머지 두 개의 문 뒤에는 염소가 있습니다. 각각의 문에는 1, 2, 3으로 번호가 붙어 있고 문이 닫힌 상태에서는 뒤에 무엇이 있는지 알 수 없습니다. 게임쇼 참여자가 1번을 선택하였습니다. 이어서 문 뒤에 무엇이 있는지 알고 있는 진행자는 3번 문을 열었고 그 뒤에는 염소가 있었습니다. 게임쇼 참여자에게 선택을 2번으로 바꿀 수 있는 기회가 주어집니다. 그렇다면 1번에 머무르는 것보다 2번으로 바꾸는 것이 우승할 확률을 더 높여줄까요? 이때 선택을 바꾸는 것이 자동차를 얻을 확률을 두 배로 높여주기 때문에 유리합니다.왜 선택을 바꾸는 것이 유리할까요?많은 사람들이..

믿음의 정량화 및 수정 과정

인간은 살아가면서 수많은 결정을 내리고 그것이 기대한 결과로 이어지기를 바랍니다.부서 회식 장소 결정하기영어 학원 등록 여부 결정하기이사할 집 결정하기결혼할 배우자 결정하기입사할 회사 결정하기결정에 따르는 결과를 완전히 운에 맡기는 것이 아니라면 결정을 내리기 전까지 거치는 과정을 아래와 같은 다이어그램으로 표현할 수 있습니다. 위에서 사실(fact), 확률(probability) 대신에 굳이 믿음(belief)이라는 용어를 사용한 이유는 충분한 증거가 없는 상태에서 무엇이 어떠하다라고 생각하는 것은 믿음에 가깝기 때문입니다. 한편으로는 믿음이라고 표현함으로써 얻게 되는 이득 중의 하나는 구체적인 적용을 시도할 때 엄밀함을 추구하지 않아도 된다는 것입니다. 우리는 일상 대화에서 믿음의 정도를 백분율로 표..

놈(Norm)의 정의와 활용

1. 놈의 도입 배경: '거리'와 '크기'의 일반화우리는 초중고 수학 과정에서 피타고라스 정리를 이용해 2차원 또는 3차원 공간에서 두 점 사이의 거리나 화살표(벡터)의 길이를 구하는 법을 배웠습니다. 예를 들어, 좌표평면 위의 점 (3, 4)에서 원점 (0, 0)까지의 거리는 $\sqrt{3^2+4^2}=5$ 라고 쉽게 계산할 수 있죠. 수학자들은 이러한 '거리' 또는 '크기'라는 직관적인 개념을 우리가 일상적으로 다루는 2차원, 3차원 공간을 넘어 훨씬 더 복잡하고 추상적인 '벡터 공간(Vector Space)'으로 확장하고 싶었습니다. 예를 들어, '함수'들도 하나의 벡터 공간을 이룰 수 있는데, "두 함수의 거리는 얼마일까?" 또는 "이 함수의 전체적인 크기는 얼마일까?"와 같은 질문에 답하기 위..

선형대수학 핵심 개념: 행렬식, 고유값, 계수

선형대수학에서 행렬은 단순히 숫자의 배열이 아니라, 벡터를 다른 벡터로 변환하는 '선형 변환'을 나타냅니다. 행렬식, 고유값, 계수는 이러한 변환의 성질을 파악하는 데 도움을 주는 핵심적인 도구들입니다.1. 행렬식 (Determinant)행렬식은 정사각행렬에 대해서만 정의되는 하나의 스칼라 값입니다. 행렬 $A$의 행렬식은 $\det(A)$ 또는 $|A|$로 표기합니다.기하학적 의미: 행렬식이란 선형 변환이 공간을 얼마나 '확장' 또는 '축소'시키는지를 나타내는 '배율'입니다.2x2 행렬: 변환 후 단위 정사각형이 이루는 평행사변형의 넓이.3x3 행렬: 변환 후 단위 정육면체가 이루는 평행육면체의 부피.만약 행렬식의 값이 0이라면, 해당 변환은 공간을 더 낮은 차원으로 '납작하게' 만듭니다 (예: 3D ..