측도의 약한 수렴
정의
공간 $S$ 가 거리 공간 $( S , \rho)$ 이면서 가측 공간 $(S,\mathcal{B}(S))$ 이라고 하자.
측도론
$S$ 에서 정의되는 측도 $\mu$ 와 측도의 시퀀스 $\left\{ \mu_n \right\}_{n \in \mathbb{N}}$ 이 $n \to \infty$ 일 때 모든 $f \in C_{b}(S)$ 에 대해 다음을 만족하면 $\left\{ \mu_{n} \right\}$ 이 측도 $\mu$ 로 약하게 수렴한다converge Weakly고 말하고 $\mu_{n}\overset{W}{\to}\mu$ 와 같이 나타낸다. $$ \int_{S} f d\mu_{n} \to \int_{S} f d\mu $$
확률론
$S$ 에서 정의되는 확률 $P$ 와 확률의 시퀀스 $\left\{ P_n \right\}_{n \in \mathbb{N}}$ 이 $n \to \infty$ 일 때 모든 $f \in C_{b}(S)$ 에 대해 다음을 만족하면 $\left\{ P_{n} \right\}$ 이 확률 $P$ 로 약하게 수렴한다converge Weakly고 말하고 $P_{n}\overset{W}{\to}P$ 와 같이 나타낸다. $$ \int_{S} f dP_{n} \to \int_{S} f dP $$
- $C_{b}(S)$ 는 다음과 같이 $S$ 에서 정의되는 유계 연속 함수들의 집합을 나타낸다. $$ C_{b}(S) := \left\{ f:S \to \mathbb{R} \mid f\text{ is bounded and continuous} \right\} $$
- $\displaystyle \int_{S} f dP$ 는 간단하게 $\displaystyle Pf := \int_{S} f dP$ 와 같이 나타내기도 한다.
설명
측도의 약한 수렴에 대한 대표적인 응용은 확률론을 꼽을 수 있다. 본 포스트에서는 주로 백그라운드가 통계학인 쪽에서 확률론을 접해 위상수학에 익숙하지 않을 독자들을 상정하고 설명했다. 백그라운드가 수학이라면 위상수학에 대한 내용은 그냥 편안하게 읽고 확률론에서 어떤 부분을 필요로 하는지 알아보는 느낌으로 읽으면 된다.
통계학
확률 (측도)의 약한 수렴이란 사실 측도론으로 설명되는 분포수렴이라고 볼 수 있다. 수리통계학 등에서 접할 수 있는 분포수렴은 일변수 확률 변수일 때 $X_{n}$ 의 누적분포함수 $F_{X_{n}}$ 이 존재해서 $X$ 의 누적분포함수 $F_{X}$ 이 연속이 되는 모든 점 $x \in X$ 에 대해 다음을 만족하면 $X_{n} \overset{D}{\to} X$ 라고 했다. $$ \lim_{n\to\infty} F_{X_{n}}(x) = F(x) $$ 모든 $f \in C_{b}(S)$ 에 대해 다음을 만족할 때 약한 수렴을 한다고 했는데, 위 아래 두 수식이 닮아있음에 주목하자. $$ \lim_{n\to\infty} P_{n} f = P f $$ 확률 (측도)의 시퀀스라고 해서 어렵게 생각하지말고 우선은 직관적으로 접근해보자. 식을 보면 $f$ 가 $P_{n}$ 이라는 가중치를 가지고 $P f$ 으로 수렴하는 것으로 볼 수 있다. 확률론에서 다루는 함수란 결국 확률 변수인데, 이를 $X_{n}\equiv P_{n}f$, $X \equiv Pf$ 와 같이 나타내보면 다음과 같이 나타낼 수 있을지도 모른다. $$ X_{n} \overset{D}{\to}X \overset{?}{\iff} P_{n} \overset{W}{\to} P $$ 왼쪽의 수식에서 보이지 않는 것은 $X$ 가 연속인 모든 점 $x \in S$ 고, 오른쪽의 수식에서 보이지 않는 것은 유계 연속인 모든 함수 $f \in C_{b}(S)$ 다.
위상수학
약한 수렴에 대해서 논하기 위해서는 기초적인 위상수학 정도는 반드시 숙지하고 있어야한다. 다행스럽게도 측도론에서 논하는 공간은 꽤 상식적이어서 거리 공간정도만 알면 당장은 충분하다. 공간 $S$ 가 거리 공간 $( S , \rho)$ 이면서 $(S,\mathcal{B}(S))$ 이 가측공간이라는 것은 $S$ 에서 모든 $x \in S$ 와 모든 $\varepsilon>0$ 에 대해 거리 함수 $\rho$ 로 만들어지는 모든 오픈 볼 $B_{\rho}(x , \varepsilon) := \left\{ y \in S : \rho (x,y) < \varepsilon \right\}$ 을 포함하는 가장 작은 시그마 필드, 그러니까 보렐 시그마 필드 $\mathcal{B}(S)$ 를 시그마 필드로 갖는 가측 공간 $(S,\mathcal{B}(S))$ 이 된다는 것이다.
오픈 셋은 오픈 볼의 합집합들이고 시그마 필드의 성질에 따라 그 여집합도 모두 $\mathcal{B}(S)$ 에 포함되므로 모든 클로즈드 셋 역시 $\mathcal{B}(S)$ 에 속해야한다. 간단한 예로써 $S=\mathbb{R}$ 를 생각해보면 $\mathcal{B}(\mathbb{R})$ 은 다음과 같은 개집합과 폐집합들을 원소로 가진다. $$ \emptyset, \mathbb{R}, [0,7], (-\infty, \pi) , \left\{ 1 \right\}, (-1,1) \cap (0,9) $$ 그뿐만 아니라 시그마 필드의 다른 조건에 따라 다음과 같이 개집합과 폐집합이 섞인 집합들도 원소로 가진다. 적어도 여기서 예로 든 집합들이 비교적 상식적으로 생겼다는 것을 느낄 수 있다면 좋다. $$ [0,1), (-\infty,\pi], [\pi , \infty) , \left\{ 1 \right\} \cup (-3,-2) $$ 여전히 어렵게 느껴지고 정의를 납득할 수 없다면 시간을 들여서라도 위상수학을 공부해보기를 추천한다. 물론 확률론을 공부하자고 위상수학부터 베이스를 다지는 건 비효율적일 수 있다. 하지만 효율을 따지자는 게 아니라 그냥 그 경험 자체가 큰 도움이 된다. 위상수학에는 아주 충격적이고 변태적인 예시들이 심할정도로 많다. 추상수학의 매운맛을 보고 나면 거리 공간처럼 좋은 공간을 공부하는 것에 감사하는 마음을 가질 수 있게 될 것이다. 물론 수학적인 센스도 겸사겸사 키울 수 있다.
이에 대해서 다음의 유용한 정리를 소개한다.
정리
$P$ 가 $(S,\mathcal{B}(S))$ 에서 정의된 확률이라고 하자. 그러면 모든 $A \in \mathcal{B}(S)$ 와 $\varepsilon>0$ 에 대해 다음을 만족하는 닫힌 집합 $F_{\varepsilon}$ 과 열린 집합 $G_{\varepsilon}$ 가 존재한다. $$ F_{\varepsilon}\subset A \subset G_{\varepsilon} \\ P ( G_{\varepsilon} \setminus F_{\varepsilon}) < \varepsilon $$ 위의 정리에 따라 다음의 따름 정리를 얻을 수 있다. $$ \begin{align*} P(A) =& \sup \left\{ P(F) : F \in \mathcal{B}(S) \text{ is closed in S} \right\} \\ =& \inf \left\{ P(G) : G \in \mathcal{B}(S) \text{ is open in S} \right\} \end{align*} $$
말할 것도 없이, 그 어떤 위상공간이든 원래 $A^{\circ} \subset A \subset \overline{A}$ 이기 때문에 $A$ 보다 살짝 더 작은 오픈 셋, 살짝 더 큰 클로즈드 셋의 존재성은 단언할 수 있지만 위와 같이 $P ( G_{\varepsilon} \setminus F_{\varepsilon}) < \varepsilon$ 을 만족하면서 살짝 더 작은 클로즈드 셋과 살짝 더 큰 오픈 셋이 존재하는 것은 생각만큼 당연한 게 아니다. 이는 확률 $P$ 가 측도이므로 연속이라는 점을 분명히 하고나서야 당연해진다.
사실 백마디 말보다는 위의 그림을 보고 이해하는 편이 더 편할 것이다. 이 성질이 있음으로써 $A$ 의 바운더리 $\partial A$ 주변을 아슬아슬하게 타고가면서 $\varepsilon > 0$ 가 주어질 때마다 충분히 좁은 띠를 찾을 수 있게끔하는 $F_{\varepsilon}$ 과 $G_{\varepsilon}$ 이 존재하는 것이다.
같이보기
- 거의 확실히 수렴 $\implies$ 확률 수렴 $\implies$ 분포 수렴(약한 수렴)
- 힐베르트 공간에서 약한 수렴