ノンパラメトリック統計学とは何ですか?
定義 1
統計学において、非パラメトリック統計nonparametric statisticsとは、主に母集団の分布についての仮定をしない統計的手法を指し、特に仮説検定を行うための条件がほとんどないという特徴を持つ。
説明
例として分散分析における仮説検定がどのように行われるかを見てみよう。
一元分散分析: 実験計画上、$k$個の処理があるとき、各処理で$n_{j}$個ずつ、合計で$n = n_{1} + \cdots + n_{k}$個の標本を得たと仮定しよう。$j = 1 , \cdots , k$番目の処理の標本がそれぞれ独立しており、ランダムに正規分布 $N \left( \mu_{j} , \sigma_{j}^{2} \right)$ に従い、各正規分布の母分散が等しいと仮定して$\sigma^{2} = \sigma_{1}^{2} = \cdots = \sigma_{k}^{2}$としよう。グループ間の母平均を比較する分散分析である一元分散分析one-way ANOVAにおける仮説検定は以下の通り。
- $H_{0}$: $\mu_{1} = \cdots = \mu_{k}$
- $H_{1}$: 少なくとも一つの$\mu_{j}$は他の母平均と異なる。
また別の例として、回帰分析におけるある仮説検定は以下の通りである。
回帰係数の$t$-検定: $$ \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} $$
独立変数が$p$個の$n$個のデータが与えられているとき、線形重回帰モデルを計画行列で表すと上記の通りであり、簡単に$Y = X \beta + \varepsilon$と表そう。モデル診断で残差が線形性、等分散性、独立性、正規性を満たしていると仮定しよう。重回帰分析における各回帰係数に対する仮説検定は次の通りである。
統計学全体として、分散分析と回帰分析は学部2年生程度で十分に理解し活用できるレベルだが、見ての通り、これらを使用するための条件は非常に多く複雑である。仮定を満たさなくても分析手法をそのまま適用すればなんとか結果は出るかもしれないが、その結果は理論的な根拠が乏しいため信頼できない。
データが仮定を満たさない例として、正規性や等分散性が欠けている状況はもちろんのこと、次のようにデータの特性自体からパラメトリックな方法を適用しにくい状況も考えられる。
- データの順序や順位のみが分かる場合: 世界大学ランキング、新製品テスト結果の嗜好度
- 切断データtruncated: 特定範囲以上のデータを測定できない、または意図的に欠落
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p630. ↩︎