データサイエンスにおける独立変数と従属変数
用語
統計学や機械学習、その他のデータ科学の分野のモデルで、変数は一般的に以下の二つのカテゴリーに分けられる。
従属変数
従属変数は、通常モデルの結果や出力として期待される変数を指し、出力や予測変数とも呼ぶ。
独立変数
独立変数は、従属変数に影響を与える入力変数を指し、入力や説明変数とも呼ぶ。
説明
例
韓国女性の平均身長は159.6cm、韓国男性の平均身長は172.5cmであり、その比率は大体$\displaystyle 1.081 \approx {{ 172.5 } \over { 159.6 }}$くらいだ。 $$ y = y \left( x_{1} , x_{2} \right) = {{ 1.08 } \over { 2 }} x_{1} + {{ 1.00 } \over { 2 }} x_{2} $$ 非常に簡単な例として、母の身長$x_{1}$と父の身長$x_{2}$だけを使って息子の身長$y$を予測するモデルを考えてみる。モデルは単に母の平均身長を父の平均身長と同じスケールに変換して平均を取ったものだ。娘の身長を予測したい場合は、父の身長を母の身長に合わせてスケールすれば良い。
- $y$はモデルで予測したい予測変数で、息子の身長を説明するのが両親の身長$x_{1} , x_{2}$なので、これらを説明変数と呼ぶ。
- $y$が$x_{1}, x_{2}$に依存しているという仮定がなければ、このモデルは意味をなさない。だから従属変数と呼ぶ。独立変数はその対立用語としても構わないが、$x_{1}, x_{2}$が相互に独立しているとは限らないからだ。
- 詳しい意味がわからなくても、式に$x_{1} = 169$や$x_{2} = 174$を入力すると息子の身長が$y = 178.26$として出力されることは確かだ。
表記
通常、特に説明がなければ独立変数は$X$で表し、従属変数は$Y$で表し、$Y$を左辺に置く。 $$ \begin{align*} Y \gets & X_{1} , \cdots , X_{p} \\ Y =& X \beta + \varepsilon \\ y =& f \left( x_{1} , \cdots , x_{p} \right) \end{align*} $$ 例外もある。時系列分析などでは、通常従属変数自体がラグを持って独立変数になりうるため、表記を区別せず、すべてのデータを$Y$で表すこともある。