수리통계학에서의 확률 변수와 확률 분포
정의 1
표본 공간 $\Omega$ 에서 확률 $P$ 가 정의되어 있다고 하자.
- 정의역이 표본 공간인 함수 $X : \Omega \to \mathbb{R}$ 을 확률 변수random variable라고 한다. 확률 변수의 치역 $X(\Omega)$ 을 공간space이라고도 부른다.
- 다음을 만족하는 함수 $F_{X} : \mathbb{R} \to [0,1]$ 을 $X$ 의 누적분포함수(Cummulative Distribution Function, cdf) 라 한다. $$ F_{X}(x) = P_{X}\left( (-\infty,x] \right) = P \left( \left\{ \omega \in \Omega : X(\omega) \le x \right\} \right) $$
이산
- D1: 확률 변수 $X$ 의 공간이 가산 집합이면 $X$ 를 이산 확률 변수discrete Random variable라 하고 이산 확률 분포를 따른다고 한다.
- D2: 다음을 만족하는 $p_{X} : \mathbb{R} \to [0,1]$ 를 이산 확률 변수 $X$ 의 확률 질량 함수(Probability Mass Function, pmf) 라 한다. $$ p_{X}(x) := P\left( X=x \right) $$
- D3: $\mathcal{S}_{X} := \left\{ x \in \mathbb{R} : p_{X}(x) > 0 \right\}$ 을 $X$ 의 서포트support라 한다.
연속
- C1: 확률 변수 $X$ 의 누적 분포 함수 $F_{X}$ 가 모든 $x \in \mathbb{R}$ 에서 연속이면 $X$ 를 연속 확률 변수continuous Random variable라 하고 연속 확률 분포를 따른다고 한다.
- C2: 다음을 만족하는 함수 $f_{X} : \mathbb{R} \to [0,\infty)$ 를 연속 확률 변수 $X$ 의 확률 밀도 함수(Probability Density Function, pdf) 라 하고 $X$ 가 절대 연속absolutely Continuous이라 한다. $$ F_{X}(x) = \int_{-\infty}^{x} f_{X}(t) dt $$
- C3. $\mathcal{S}_{X} := \left\{ t \in \mathbb{R} : f_{X}(t) > 0 \right\}$ 을 $X$ 의 서포트support라 한다.
설명
서포트 혹은 지지 집합 이란 쉽게 말해 우리가 관심을 가지는 부분만을 추려낸 집합이다. 자주 쓰이는 표현은 아니지만, 이야말로 확률론이 무엇을 말하고 싶은지 알려준다고 할 수 있다. 확률은 확정적인 무언가에 관심이 없고, 확률이 $0$ 이라는 것은 절대 일어나지 않는다는 것이므로 알 바가 아니다. 그래서 $\mathcal{S}$ 는 ‘정말 중요한 집합’ 내지 ‘우리가 알아야할 집합’ 정도로 받아들일 수 있게 되고, 우리의 한정된 에너지를 $\Omega$ 전체가 아닌 $\mathcal{S}$ 에만 쏟아부을 수 있게 만드는 것이다.
고등학교에서 확률을 접할 때도 선생님들이 ‘확률 변수는 함수다’라고 연신 강조한 기억이 있을 것이다. 그러나 그와는 별개로 정말 확률 변수를 함수로 생각하고 다루는 것은 조금 더 높은 수준의 추상화 능력을 필요로 한다. 여기서 소개되는 정의조차 아직 수학적으로 엄밀한 것은 아니지만, 집합과 함수로 확률의 개념을 묘사하는 것이 쉬운 것은 아니다. 모르겠다고 좌절하지도 말고, 알겠다고 대충 넘어가지도 말자.
정의를 읽어보면 이산 확률 변수와 연속 확률 변수에 본질적인 차이가 있고, 그것이 형식적인 차이로도 이어지는 것을 알 수 있다. 학부생 수준에서는 헷갈려할 수 있는데, 확률 변수를 변환하는 과정에서 자코비안이 붙는 것은 연속 확률 변수를 다룰 때 뿐임을 확실하게 알고 넘어가자.
정리
서포트 $\mathcal{S}_{X}$ 를 갖는 연속 확률 변수 $X$ 와 미분 가능한 단사 함수 $g$ 에 대해 확률 변수 $Y$ 를 $Y:=g(X)$ 와 같이 정의하면 $Y$ 의 확률 밀도 함수는 $y \in \mathcal{S}_{Y}$ 에 대해 다음과 같이 구해진다. [ NOTE: 사실 $g$ 는 전단사로 가정되지 않았으므로 역함수 $g^{-1}$ 가 존재하는 것을 항상 보장할 수는 없다. ] $$ f_{Y} (y) = f_{X} \left( g^{-1}(y) \right) \left| {{ d x } \over { d y }} \right| $$
- 여기서 $\mathcal{S}_{Y}$ 는 $Y$ 의 서포트, $x$ 는 $x = g^{-1}(y)$ 을 의미한다.
증명
$g$ 는 단사고 연속이므로 증가함수거나 감소함수다. 케이스를 나눠서 생각해보자.
Case 1. $g$ 가 증가함수인 경우 $$ \begin{align*} F_{Y}(y) =& P \left( Y \le y \right) \\ =& P \left( g(X) \le y \right) \\ =& P \left( X \le g^{-1}(y) \right) \\ =& F_{X}\left( g^{-1}(y) \right) \end{align*} $$ 미적분학의 기본정리에 따라 $Y$ 의 확률 밀도 함수는 $$ \begin{align*} f_{Y}(y) =& {{ d } \over { d y }} F_{Y}(y) \\ =& {{ d } \over { d y }} \int_{-\infty}^{x} f_{X}(t) dt \\ =& {{ d } \over { d x }} \int_{-\infty}^{x} f_{X}(t) dt {{ d x } \over { d y }} \\ =& f_{X} \left( x \right) {{ d x } \over { d y }} \\ =& f_{X} \left( g^{-1} (y) \right) {{ d x } \over { d y }} \end{align*} $$ $g$ 는 증가함수이므로 $\displaystyle {{ d x } \over { d y }} = {{ d g^{-1}(y) } \over { d y }} >0$ 이고, 따라서 $$ {{ d x } \over { d y }} = \left| {{ d x } \over { d y }} \right| $$
Case 2. $g$ 가 감소함수인 경우 $$ \begin{align*} F_{Y}(y) =& P \left( Y \le y \right) \\ =& P \left( g(X) \le y \right) \\ =& P \left( X \le g^{-1}(y) \right) \\ =& 1- F_{X}\left( g^{-1}(y) \right) \end{align*} $$ 마찬가지로 $\displaystyle f_{Y}(y) = - f_{X} \left( g^{-1} (y) \right) {{ d x } \over { d y }}$ 다. $g$ 는 감소함수이므로 $\displaystyle {{ d x } \over { d y }} < 0$ 이고, 따라서 $$ - {{ d x } \over { d y }} = \left| {{ d x } \over { d y }} \right| $$
■
엄밀한 정의
Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p32~41. ↩︎