F-분포
📂확률분포론F-분포
정의
자유도 r1,r2>0 에 대해 다음과 같은 확률 밀도 함수를 가지는 연속 확률 분포 F(r1,r2) 를 F-분포라고 한다.
f(x)=B(r1/2,r2/2)1(r2r1)r1/2xr1/2−1(1+r2r1x)−(r1+r2)/2,x∈(0,∞)
- B(r1/2,r2/2) 는 베타 함수를 의미한다.
기초 성질
적률 생성 함수
- [1]: F-분포는 적률 생성 함수가 존재하지 않는다.
평균과 분산
- [2]: X∼F(r1,r2) 면
E(X)=Var(X)=r2−2r2r1(r2−2)2(r2−4)2r22(r1+r2−2),r2>2,r2>4
정리
두 확률 변수 U,V 가 독립이고 U∼χ2(r1), V∼χ2(r2) 이라 하자.
k차 적률
- [a]: d2>2k 면 F:=V/r2U/r1 는 k차 적률이 존재하고
EFk=(r1r2)kEUkEV−k
- [b]: V/r2U/r1∼F(r1,r2)
- [c]: 자유도 r1,r2 인 F-분포를 따르는 확률변수 X∼F(r1,r2) 에 대해 다음과 같이 정의된 Y 는 베타분포 Best(2r1,2r2) 를 따른다.
Y:=1+(r1/r2)X(r1/r2)X∼Beta(2r1,2r2)
- [d]: 자유도 ν>0 인 t-분포를 따르는 확률변수 X∼t(ν) 에 대해 다음과 같이 정의된 Y 는 F-분포 F(1,ν) 을 따른다.
Y:=X2∼F(1,ν)
상호역성reciprocality
- [e]: X∼F(r1,r2) 면 그 역수의 분포는 다음과 같다.
X1∼F(r2,r1)
- χ2(r) 은 자유도 r 인 카이제곱 분포다.
설명
t-분포가 스튜던트student t-분포라 불리듯, F-분포는 통계학자 조지 스네디코르의 이름을 따서 스네디코르snedecor F-분포라 불리기도 한다.
F-분포의 확률 밀도 함수는 일견 엄청나게 복잡해보이지만, 실제로 수식을 건드릴 일은 별로 없고 카이제곱 분포와의 관계를 잘 이해하는 게 최우선이다. 카이제곱 분포가 적합도 검정을 할 때 쓰일 수 있었던 것처럼, F-분포는 두 모집단의 분산을 비교하는데에 쓰일 수 있다. 정리 [b]에서 곧바로 확인할 수 있듯 F-분포는 카이제곱 분포를 따르는 데이터의 비로써 표현되기 때문에 이 통계량이 1 에서 너무 멀어지면 두 분포의 분산이 다르다고 짐작할 수 있는 것이다.
증명
[1]
확률 변수의 적률 생성 함수가 존재한다는 것은 모든 k∈N 에 대해 k차 적률이 존재한다는 것이다. 그러나 정리 [a]에서 F-분포의 k차 적률은 k<d2/2 일 때 존재하므로 적률 생성 함수가 존재할 수 없다.
■
[2]
적률 공식 [a]를 이용한다.
■
[a]
t=r2r1x 와 같이 치환하면 dt=r2r1dx 이므로
EFk=====∫0∞xkB(r1/2,r2/2)1(r2r1)r1/2xr1/2−1(1+r2r1x)−(r1+r2)/2dxB(r1/2,r2/2)1(r2r1)r1/2∫0∞xk+r1/2−1(1+r2r1x)−(r1+r2)/2dxB(r1/2,r2/2)1(r2r1)r1/2∫0∞(r1r2t)k+r1/2−1(1+t)−(r1+r2)/2r1r2dtB(r1/2,r2/2)1(r2r1)r1/2(r1r2)k+r1/2∫0∞tk+r1/2(1+t)−r1/2−r2/2dtB(r1/2,r2/2)1(r1r2)k∫0∞tk+r1/2(1+t)−(r1/2+k)−(r2/2−k)dt
베타함수의 이상적분꼴 표현:
B(p,q)=∫0∞(1+t)p+qtp−1dt
베타함수와 감마함수의 관계:
B(p,q)=Γ(p+q)Γ(p)Γ(q)
EFk====B(r1/2,r2/2)1(r1r2)kB(2r1+k,2r2−k)(r1r2)kΓ(r1/2)Γ(r2/2)Γ(r1/2+r2/2)Γ(r1/2+k+r2/2−k)Γ(r1/2+k)Γ(r2/2−k)(r1r2)kΓ(r1/2)Γ(r2/2)11Γ(r1/2+k)Γ(r2/2−k)(r1r2)kΓ(r1/2)Γ(r1/2+k)2kΓ(r2/2)2−kΓ(r2/2−k)
카이제곱 분포의 적률: X∼χ2(r) 이라고 하자. k>−r/2 이면 k차 적률이 존재하고
EXk=Γ(r/2)2kΓ(r/2+k)
EFk=(r1r2)kEUkEV−k
■
[b]
조인트 밀도 함수로 직접 연역한다.
■
[c]
변수변환으로 직접 연역한다.
■
[d]
카이제곱 분포의 비로써 우회한다.
■
[e]
분자와 분모가 뒤집혔으니 정리 [b]에 따라 자명하다. 애초에 실용적인 통계학자의 관점으로는 정리 [b]로 F-분포를 정의하고, 그에 따른 확률 밀도 함수를 유도하는 것이 더 자연스럽다.
■
같이보기