수리통계학에서의 다변량 확률 분포

수리통계학에서의 다변량 확률 분포

Multivariate Distribution

정의 1

  1. 표본 공간 $\Omega$ 에서 정의된 $n$ 개의 확률 변수 $X_{i}$ 에 대해 $X = (X_{1} , \cdots , X_{n})$ 를 $n$차원 랜덤 벡터Random Vector라고 한다. $X$ 의 치역 $X(\Omega)$ 를 공간이라고도 부른다.
  2. 다음을 만족하는 함수 $F_{X} : \mathbb{R}^{n} \to [0,1]$ 을 $X$ 의 조인트Joint 누적 분포 함수라고 한다. $$ F_{X}\left( x_{1}, \cdots , x_{n} \right) := P \left[ X_{1} \le x_{1} , \cdots , X_{n} \le x_{n} \right] $$
  3. 어떤 $h_{1} , \cdots , h_{n} >0$ 들에 대해 다음을 만족하는 함수 $M_{X}$ 가 존재하면 $X$ 의 적률 생성 함수라고 한다. $$ M_{X} (t_{1}, \cdots , t_{n}) := E \left[ e^{\sum_{k=1}^{n} t_{k} X_{k} } \right] = E \left[ \prod_{k=1}^{n} e^{t_{k} X_{k}} \right] \\ |t_{1}| < h_{1} , \cdots , |t_{n} | < h_{n} $$

이산

  • D1: $X$ 의 공간이 가산 집합이면 $X$ 가 이산 랜덤 벡터라고 한다.
  • D2: 다음을 만족하는 $p_{X} : \mathbb{R}^{n} \to [0,1]$ 을 이산 랜덤 벡터 $X$ 의 조인트 확률 질량 함수라고 한다. $$ p_{X} (x_{1} , \cdots , x_{n}) := P \left[ X_{1} = x_{1} , \cdots , X_{n} = x_{n} \right] $$
  • D3: $1 \le k \le n$ 에 대해 다음과 같은 $P_{X_{k}} (x_{k})$ 를 마지널 확률 질량 함수라고 한다. $$ P_{X_{k}} (x_{k}) := \sum_{x_{1}} \cdots \sum_{x_{k-1}}\sum_{x_{k+1}} \cdots \sum_{x_{n}} p_{X} (x_{1} , \cdots , x_{n}) $$
  • D4: $S_{X}:= \left\{ \mathbb{x} \in \mathbb{R}^{n} : p_{X}(\mathbb{x}) > 0 \right\}$ 을 $X$ 의 서포트라고 한다.

연속

  • C1: 확률 변수 $X$ 의 누적 분포 함수 $F_{X} = F_{X_{1} , \cdots , X_{n}}$ 가 모든 $\mathbb{x} \in \mathbb{R}^{n}$ 에서 연속이면 $X$ 가 연속 랜덤 벡터라고 한다.
  • C2: 다음을 만족하는 $f_{X} : \mathbb{R}^{n} \to [0,\infty)$ 를 연속 랜덤 벡터 $X$ 의 조인트 확률 밀도 함수라고 한다. $$ F_{X} (x_{1}, \cdots, x_{n}) = \int_{-\infty}^{x_{1}} \cdots \int_{-\infty}^{x_{n}} f_{\mathbb{x}} (t_{1} , \cdots , t_{n}) dt_{1} \cdots d t_{n} $$
  • C3: $1 \le k \le n$ 에 대해 다음과 같은 $f_{X_{k}} (t_{k})$ 를 마지널 확률 밀도 함수라고 한다. $$ f_{X_{k}}(t_{k}) := \int_{\infty}^{x_{1}} \cdots \int_{\infty}^{x_{k-1}} \int_{\infty}^{x_{k+1}} \cdots \int_{\infty}^{x_{n}} f_{X}(t_{1} , \cdots , t_{n}) dt_{1} \cdots d_{k-1} d_{k+1} \cdots d_{n} $$
  • C4: $S_{X} := \left\{ \mathbb{t} \in \mathbb{R}^{n} : f_{X} ( \mathbb{t} ) > 0 \right\}$ 을 $X$ 의 서포트라고 한다.

  • 원래 랜덤 벡터Random Vector는 확률 벡터Random Vector로 번역되나, 고등학교를 졸업한 이상 Stochastic 혹은 Probabilistic 등과 혼용될 수 있어 원어 그대로 옮긴다.
  • 원래 조인트 누적 분포 함수Joint Cumulative Distribution Function는 결합 확률 분포로 번역되나, 결합은 독립이나 종속에 대한 오해를 불러일으킬 수 있는 것 같아 원어 그대로 옮긴다.
  • 원래 마지널 분포Marginal Distribution는 주변 분포로 번역되나, 경제학에서의 한계Marginal와 마찬가지로 그 의미가 잘 전달되지 않는 것 같아 원어 그대로 옮긴다.

설명

다변량 확률 분포는 일변량 확률 분포를 다차원으로 일반화 시킨 것이며, 변수가 여러개라는 점에서 본질적으로 큰 차이가 있으나 적어도 학부 수준의 수리통계학에서는 미적분학적인 스킬로도 충분히 다를 수 있다. 어떤 점이 다른지 살펴보자:

  • 1: 헷갈리지 말아야할 것은 랜덤 벡터 $X : \Omega^{n} \to \mathbb{R}^{n}$ 역시 여전히 함수라는 것이다. 그래서 그 치역을 생각할 수 있고, 이를 통해 다변량에 대해서도 이산형과 연속형을 구분한다.
  • C2: 연속 조인트 밀도 함수는 일반적으로 미적분학의 기본정리에 따라 확률이 $0$ 인 $A \subset \mathbb{R}^{n}$ 를 제외한 곳에서 다음을 만족시키게끔 정의된다. $$ {{ \partial^{n} } \over { \partial x_{1} \cdots \partial x_{n} }} F_{X} (\mathbb{x}) = f(\mathbb{x}) $$
  • D3, C3: 식은 복잡하지만 한마디로 말해 조인트 확률 분포를 오로지 확률 변수 $X_{k}$ 에 대한 분포로 바꿔놓은 것이다. 경제학에서 마지널이라는 단어가 미분의 개념과 통하는 것과 반대로 수리통계학에서는 적분이나 합으로 관심 없는 변수를 모조리 없애는 것이다.

  1. Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p75~84. ↩︎

댓글