logo

적률생성함수란? 📂수리통계학

적률생성함수란?

정의 1

확률변수 XX 와 어떤 양수 h>0h>0 대해 E(etX)E(e^{tX})h<t<h-h< t < h 에서 존재하면 M(t)=E(etX)M(t) = E( e^{tX} )XX적률생성함수moment Generating function라고 정의한다.

설명

적률생성함수는 흔히 mgf라는 약어로 많이 쓰인다. 수리통계학에서는 비교적 초반에 배우는데, 생소한 정의와 맥락 없는 등장 때문에 수리통계학을 싫어지게 만드는 주범 중 하나다. 적률생성함수를 이해하는게 어려운 것은 보통 교재의 구성 상 대뜸 정의부터 주고 바로 써먹어버리기 때문이다. 독자 입장에서는 적률생성함수의 정의만 알 뿐 이게 왜 이런 형태인지, 왜 쓰는지 뭔지 전혀 모르는데 예제가 쏟아지니 더 어려울 수밖에 없다.기본적으로 적률생성함수란 단어는 적률생성함수를 이어붙여서 만든 말이다. 가장 좋은 것은 링크를 따라가서 적률과 생성함수를 둘 다 읽어보는 것이지만 바쁜 독자를 위해 요점만 정리하면 다음과 같다:

  1. 적률이 뭔지 이해할 필요가 없다: 기본적으로 적률은 평균이나 분산 등을 포괄하는 추상적 개념이다. 적률은 차수에 따라 적절한 조작을 거쳐 의미 있는 통계량이 될 수 있지만 그 자체로는 통계적인 의미를 갖지 않는다. 무리하게 어떤 통계량과 연결 시키지 말고 적률 그 자체로 알아도 충분하다.
  2. 적률생성함수는 단지 생성함수의 일종이다: 생성함수는 다항함수를 일반적인 꼴로 나타낸 것에 지나지 않는다. ‘적률생성함수는 적률을 생성해주는 함수’라는 설명도 나쁘진 않지만, 적률생성함수가 생성함수의 하나로써 계수를 적률로 가진다고만 알아둬도 그 성질을 더욱 정확하게 이해할 수 있다.

적률생성함수를 매클로린 전개로 풀어내면 다음과 같다. [ NOTE: 정의에서 tt 의 반경을 h<t<h-h<t<h 로 잡아야하는 이유가 이것이다. ] M(t)=E(etX)=1+E(tX)+E(t2X2)2!+ \begin{align*} M(t) =& E(e^{tX}) \\ =& 1 + E(tX) + {{E(t^2 X^2)} \over {2!}} + \cdots \end{align*} 기댓값은 선형성을 가지므로 아래와 같이 tt 에 대한 생성함수로 표현할 수 있다. M(t)=1+E(X)t+E(X2)t22!+ M(t) = 1 + E(X) t+ {{E( X^2) t^2 } \over {2!}} + \cdots tkt^k 항의 계수는 kk차 적률의 상수배인 E(Xk)k!\displaystyle {{E(X^{k})} \over {k!}} 라는 사실에 주목하자. 이제 양변을 tt 에 대해서 nn 번 미분하고 t=0t=0 을 대입하면 M(n)(0)=E(Xn) M^{(n)} (0) = E(X^{n}) 따라서 함수 MM 은 적률을 생성한다고 할 수 있으며, 이러한 이유로 적률생성함수로 불린다고 보아도 무방하다. MM 이 정의에서 곧바로 M(t)=E(etX)M(t) = E( e^{tX} )로 주어지지 않거나 생성함수에 대한 언급만 있었어도 훨씬 이해하기 쉬웠을 것이다.

한편, 확률 변수 XXYY 에 대한 적률생성함수 MXM_{X}MYM_{Y} 가 서로 같다고 생각해보자. 적률은 우리가 통계학에서 궁극적으로 알고 싶어하는 통계량을 구하기 위해 고안된 개념이다. 그리고 모든 항마다 이 적률들이 서로 같다면, 그 XXYY 는 같은 분포를 따른다고 할 수 있을 것이다. 다음의 정리에 따라 적률생성함수가 존재하는 분포끼리라면 적률생성함수 그 자체를 분포와 같은 개념으로 생각하고 비교해도 무방하다. 사실 분포함수는 적분으로써 확률을 나타내는데에는 편리할 뿐 분포 자체를 다루는데에는 별로 좋지 않다. 대신 적률생성함수가 이러한 성질을 가진 덕에 어떤 확률변수가 어떤 분포를 따르는지 수식적으로 논할 때 가장 빈번하게 사용된다.

정리

XX, YY 가 각각 적률생성함수 MXM_{X}, MYM_{Y}누적분포함수 FXF_{X}, FYF_{Y} 를 가지는 확률 변수라고 하자. 모든 zR z \in \mathbb{R} 에 대해서 FX(z)=FY(z)F_{X} (z) = F_{Y}(z) 인 것과 어떤 h>0h>0 와 모든 t(h,h)t \in (-h,h) 에 대해 MX(t)=MY(t)M_{X}(t) = M_{Y}(t) 인 것은 동치다.


  • R\mathbb{R} 은 실수 집합을 의미한다.

  1. Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p59. ↩︎