順序統計量
📂数理統計学順序統計量
定理
ランダムサンプル X1,⋯,Xn がサポート S=(a,b) を持つ確率密度関数 f(x) を有し、連続確率分布に従うとしよう。これらを大きさ順に並べた確率変数を Y1<⋯<Yn のように表すと、それらのジョイントとマージナル確率密度関数は次の通りである。
[1] ジョイント:
g(y1,⋯,yn)={n!f(y1)⋯f(yn)0,a<y1<⋯<yn<b,elsewhere
[2] マージナル: Yk の累積密度関数を F(yk) とすると、
g(yk)={(k−1)!(n−k)!n![F(yk)]k−1[1−F(yk)]n−kf(yk)0,a<yk<b,elsewhere
説明
一見、式が複雑に見えるかもしれないが、直感的な意味を理解すればそれほど難しくない。[1] のジョイント確率密度関数では n 個の確率変数を順番に並べることで、順列で得られるケース数 n! が表れ、[2] のマージナル確率密度関数では、Yk の一つと yk より小さい k−1 個の確率変数と大きい n−k 個の確率変数を選ぶ組み合わせによって (k−1)!1!(n−k)!n! が現れる。{Yi} の順番に引数を配置すると、その形は次のようになる。
g(yk)=(k−1)!1!(n−k)!n![F(yk)]k−1f(yk)[1−F(yk)]n−k
順序統計量とは、言葉そのものが順序が指定された状態の統計量を意味し、ランダムサンプルの確率分布を仮定することができる場合、最大値や第二、最小値、正確には中位の観測値が選ばれる確率などを知ることができる。要約 [2] によると、最小値と最大値の確率密度関数は、次の式によって直接計算することができる。
Y1=min{X1,⋯,Xn}⟹g1(y1)=nf(y1)[1−F(y1)]n−1Yn=max{X1,⋯,Xn}⟹gn(yn)=nf(yn)[F(yn)]n−1
実際の例としては、貯水池の水位を考えてみよう。もし土砂降りが降ってあふれたり、ダムが壊れたりしたら大変なことになる。水位は時系列データとして表現でき、年平均や標準偏差も計算可能だが、そのような統計は洪水を目前にした緊急時には役に立たない。しかし、最初から最高水位に注目すれば、貯水池の規模を決定し、建設するためのより安定的で合理的な根拠となり得る。‘貯水池があふれることはあまりないよね?‘と思うなら、既にポイントは伝わったも同然だ。あふれない理由は、既にこうした事を考慮しているからだ。
証明
[1]
戦略: 順列で n! が出ることを知れば、もうそれで終わりに近い。
確率変数の変換: 変換された多変量確率変数 Y=(Y1,⋯,Yn) のジョイント確率密度関数は次の通り。
g(y1,⋯,yn)=i=1∑kf[w1i(y1,⋯,yn),⋯,wni(y1,⋯,yn)]∣Ji∣
X1,⋯,Xn が Y1,⋯,Yn に変換されるケース数は n! であり、どのように変化してもxi=yj の順番だけが変わるため、ヤコビアンは ±1 である。したがって、
g(y1,⋯,yn)==i=1∑n!∣±1∣f(y1)⋯f(yn)n!f(y1)⋯f(yn)
■
[2]
戦略: 同様に、n 個の要素から 3 種を選ぶ組み合わせの数が a!b!(n−a−b)!n! であることを知れば、もうそれでおしまい。ここで a=k−1, b=1 とする。
Yk の一つと yk より小さい k−1 個の確率変数が F(yk) の確率で、大きい n−k 個の確率変数が [1−F(yk)] の確率で選ばれるので、組み合わせの公式により、
g(yk)=(k−1)!1!(n−k)!n![F(yk)]k−1f(yk)[1−F(yk)]n−k
■