측도론으로 정의되는 확률 변수와 확률 분포

측도론으로 정의되는 확률 변수와 확률 분포

Random variable and probability distribution in terms of measure theory

정의 1

확률 공간 $( \Omega , \mathcal{F} , P)$ 이 주어져 있다고 하자.

  1. 모든 보렐 셋 $B \in \mathcal{B} (\mathbb{R})$ 에 대해 $X^{-1} (B) \in \mathcal{F}$ 를 만족하는 함수 $X : \Omega \to \mathbb{R}$ 을 확률변수Random Variable라고 한다.
  2. 다음과 같이 정의된 $\mathcal{F}_{X}$ 를 $X$ 에 의해 생성된 시그마 필드라고 한다. $$ \mathcal{F}_{X} := X^{-1} ( \mathcal{B} ) = \sigma (X) = \left\{ X^{-1} (B) \in \Omega : B \in \mathcal{B}( \Omega ) \right\} $$
  3. 다음과 같이 정의된 가측함수 $P_{X}$ 를 $X$ 의 확률 분포Probability Distribution라고 한다. $$ P_{X} (B) := P ( X^{-1} (B) ) $$

  • 아직 측도론을 접하지 못했다면 확률 공간이라는 말은 무시해도 좋다.

설명

확률 공간과 마찬가지로 확률 변수 역시 측도론에서 엄밀하게 정의될 수 있다.

  1. $X^{-1} (B) \in \mathcal{F}$ 이라는 말은 곧 $X$ 가 $\Omega$ 의 원소를 실수로 매핑해서 대소관계 $P(a \le X \le b)$ 같은 것을 쓸 수 있게끔 만들어진 동시에, 보렐 셋의 프리 이미지시그마 필드에 속하게 함으로써 상식적인 집합만을 사건으로 다루도록 제약을 준 것이다. 언뜻 지나치게 추상적으로 보이지만, 역설적이게도 그 목적은 지나친 추상성을 상실시키는 것에 있다고 보아도 좋다. 정의에 따라 확률변수 $X$ 는 실함수일 뿐만 아니라 가측 함수가 되며, 만약 $\Omega = \mathbb{R}$ 이면 $\mathcal{F} = \mathcal{B}$ 이므로 그냥 보렐 함수 $X : \mathbb{R} \to \mathbb{R}$ 가 된다. 보통 수리통계학의 간단한 정리들은 이 선에서 충분하다. 그 너머, 다변량 확률변수로의 일반화는 간단하게도 모든 보렐 셋 $B \in \mathcal{B} (\mathbb{R}^{p})$ 에 대해 $X^{-1} (B) \in \mathcal{F}$ 를 만족하는 $X : \Omega \to \mathbb{R}^{p}$ 를 정의함으로써 가능하다. 물론 $X$ 는 각각의 확률변수 $X_{i} : \Omega \to \mathbb{R}$ 에 대해 $X = ( X_{1}, \cdots , X_{p})$ 와 같이 벡터로 나타낼 수 있고 확률 벡터라 부른다. 이것이 확률 변수의 수열로 이어지면 확률 과정Stochastic Process, 그보다 더 일반적으로는 확률 원소Random Element라 부르게 된다.
  2. 시그마 필드 $\mathcal{G}$ 에 대해 $Y^{-1} ( \mathcal{B} ) \in \mathcal{G}$ 이면 $Y$ 가 $\mathcal{G}$-가측이라고 하는데, $\mathcal{F}_{X}$ 의 정의에 따르면 당연히 $X$ 는 $\mathcal{F}_{X}$-메져러블이다.
  3. 너무 많은 정의가 나와서 헷갈리겠지만 차근차근 생각해보면 전혀 어려울 것이 없다. $X^{-1} (B) \in \mathcal{F}$ 이므로, 이를 역함수처럼 생각해보면 $X^{-1} : \mathcal{B} (\mathbb{R}) \to \mathcal{F}$ 다. 이렇게 $P_{X} : = ( P \circ X^{-1} )$ 는 $$ P_{X} : \mathcal{B} (\mathbb{R}) \to \mathcal{F} \to [0,1] $$ 처럼 이해할 수 있으며,1 보렐 셋 $B$ 에 대해 $0$ 부터 $1$ 까지의 어떤 값에 대응시키는 합성함수에 불과한 것이다. 예를 들어 $[-3,-2]$ 는 당연히 $\mathbb{R}$ 의 보렐 셋인데, 확률 변수 $Y$ 가 어떻게 정의되었느냐에 따라 $P_{Y} ( [-3,-2] ) = 0.7$ 과 같은 계산을 할 수 있게 되는 것이다.

같이보기


  1. Capinski. (1999). Measure, Integral and Probability: p66~68. ↩︎

댓글