수리통계학에서의 확률과 확률의 덧셈법칙
정의 1
- 같은 조건 하에서 반복할 수 있는 시행을 임의 시행random experiment이라고 한다.
- 임의 시행에서 얻을 수 있는 모든 결과outcome를 모아놓은 집합 $\Omega$ 를 표본 공간sample space이라고 한다.
- 표본 공간에서 우리가 관심을 가지는 결과들의 집합, 즉 $B \subset \Omega$ 를 사건event이라 하고 이들의 집합을 $\mathcal{B}$ 와 같이 나타낸다.
- 다음 세가지 조건을 만족하는 함수 $P : \mathcal{B} \to \mathbb{R}$ 를 확률probability이라고 한다:
- (i): 모든 $B \in \mathcal{B}$ 에 대해 $P(B) \ge 0$
- (ii): 전체 공간 $\Omega \in \mathcal{B}$ 에 대해 $P(\Omega) = 1$
- (iii) 확률의 덧셈 법칙additive Law of Probability: 서로소 사건들의 수열 $\left\{ B_{i} \right\}_{i=1}^{\infty}$, 즉 $n \ne m \implies B_{n} \cap B_{m} = \emptyset$ 인 $\left\{ B_{i} \right\}$ 에 대해 $$ P \left( \bigcup_{i=1}^{\infty} B_{i} \right) = \sum_{i=1}^{\infty} P \left( B_{i} \right) $$
설명
수리통계학이라고 해도 기본적으로 그 개념 자체는 교과과정 내의 확률, 학부 수준의 확률개론에서 사용하는 것과 같을 수밖에 없다. 아니, 그 어떤 이론을 근거로 하든 표현와 논법이 달라질 수는 있어도 개념은 달라질 수가 없다. 집합과 함수에 쫄지 말고 차근차근 설명을 읽어보자:
사건과 표본공간
고등학교 수준의 확률 통계와 달라지는 것이 있다면 조금 더 적극적으로 집합을 사용해서 확률이라는 개념을 묘사한다는 것이다. 사실 학부 수리통계학에서 다루는 수준의 확률의 개념조차 아직은 ‘임의 시행’이라든가 ‘관심을 가지는’ 등의 애매모호한 표현이 남아있지만, 처음 접하는 입장에서는 이조차도 엄밀하고 어렵게 느껴질 수 있다. 정상이니까 걱정하지말자.
인간의 키가 정규 분포를 따른다고 가정해보면 표본 공간 $\Omega$ 는 실수 집합 $\mathbb{R}$ 그 자체가 된다. 물론 키는 반드시 양수여야겠지만, 그렇게 쓸데없는 엄밀성은 잠시 제쳐두도록 하자. 그렇다면 하나의 사건 $B$ 란 아담adam이라는 한 남성의 키 $x$ 를 측정했을 때 그것을 포함하는 집합으로써 표현된다. 가령 $[172,190] \subset \Omega$ 는 키를 측정했을 때 그것이 172 이상이고 190 이하인 사건이 된다. 이 측정은 정의에서 설명된 임의 시행이고, 그렇게 측정된 값 $x$ 는 결과고, 그렇게 결과로 얻을 수 있을 모든 경우를 모아놓은 것이 표본 공간이다. 이러한 추상화를 이해할 수 없어도 수리통계학을 공부하는데에는 큰 문제가 없을 수도 있다. 다만 그만큼 기반이 불안해지는 것은 각오해야한다.
추상화의 다음 과정은 형식화다. 사건 $B \subset \Omega$ 이 $\Omega$ 의 멱집합 $\mathscr{P}(\Omega)$ 에 속한다. 이들을 모아놓은 $\mathcal{B}$ 에 대해서 다음과 같은 몇가지 관계들을 체크해보자. $$ B \subset \Omega \\ \mathcal{B} \not\subset \Omega \\ B \in \mathscr{P}(\Omega) \\ B \in \mathcal{B} \\ B \notin \Omega \\ \mathcal{B} \subset \mathscr{P}(\Omega) $$
확률
이러한 복잡한 표현을 쓰는 이유는 확률 (함수) $P$ 의 정의역이 표본 공간 $\Omega$ 그 자체가 아닌 사건들이어야하기 때문이다. 고등학교 수준에서 말하자면 아담의 키가 정확히 181일($x=181$) 확률 $\displaystyle \int_{181}^{181} f(x) dx = 0$ 은 알 바가 아니고, 180보다 크고 182보다 작을($180<x<182$) 확률 $\displaystyle \int_{180}^{182}f(x) dx > 0$ 과 같이 계산해야하기 때문이라고 받아들여도 좋다. 확률은 어떤 사건을 $0$ 부터 $1$ 사이의 가능성 수치화하는 함수다.
전체 공간, 그러니까 $\Omega$ 에 대해서 $P(\Omega)=1$ 이라는 것은 직관적으로 말해서 ‘아무 일이나 일어날 확률은 100%다’가 된다. 수식적으로는 반드시 일어나는 것보다 확실할 수는 없다는 말 정도로 설명할 수 있겠다.
배반사건
사건 $B \subset \Omega$ 에 대해 다음을 만족하는 사건 $A \subset \Omega$ 를 $B$ 의 배반사건exclusive Event이라 한다. $$ P \left( B \cap A \right) = 0 $$ 배반사건의 자명한 예로는 $\emptyset$ 이나 $B^{C}$ 등이 있는데, 정의가 정확히 $B \cap A = \emptyset$ 를 말하는 건 아니라는 점을 기억해야한다. 어디까지나 배반사건은 확률로써 정의되며, 구체적으로 집합으로써 이들이 어떻게 생겼는지는 알 바 아니다.
엄밀한 정의
Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p11. ↩︎