logo

データサイエンスにおける独立変数と従属変数 📂データサイエンス

データサイエンスにおける独立変数と従属変数

用語

統計学機械学習、その他のデータ科学の分野のモデルで、変数は一般的に以下の二つのカテゴリーに分けられる。

従属変数

従属変数は、通常モデルの結果や出力として期待される変数を指し、出力予測変数とも呼ぶ。

独立変数

独立変数は、従属変数に影響を与える入力変数を指し、入力説明変数とも呼ぶ。

説明

韓国女性の平均身長は159.6cm、韓国男性の平均身長は172.5cmであり、その比率は大体1.081172.5159.6\displaystyle 1.081 \approx {{ 172.5 } \over { 159.6 }}くらいだ。 y=y(x1,x2)=1.082x1+1.002x2 y = y \left( x_{1} , x_{2} \right) = {{ 1.08 } \over { 2 }} x_{1} + {{ 1.00 } \over { 2 }} x_{2} 非常に簡単な例として、母の身長x1x_{1}と父の身長x2x_{2}だけを使って息子の身長yyを予測するモデルを考えてみる。モデルは単に母の平均身長を父の平均身長と同じスケールに変換して平均を取ったものだ。娘の身長を予測したい場合は、父の身長を母の身長に合わせてスケールすれば良い。

  • yyはモデルで予測したい予測変数で、息子の身長を説明するのが両親の身長x1,x2x_{1} , x_{2}なので、これらを説明変数と呼ぶ。
  • yyx1,x2x_{1}, x_{2}に依存しているという仮定がなければ、このモデルは意味をなさない。だから従属変数と呼ぶ。独立変数はその対立用語としても構わないが、x1,x2x_{1}, x_{2}相互に独立しているとは限らないからだ。
  • 詳しい意味がわからなくても、式にx1=169x_{1} = 169x2=174x_{2} = 174入力すると息子の身長がy=178.26y = 178.26として出力されることは確かだ。

表記

通常、特に説明がなければ独立変数はXXで表し、従属変数はYYで表し、YYを左辺に置く。 YX1,,XpY=Xβ+εy=f(x1,,xp) \begin{align*} Y \gets & X_{1} , \cdots , X_{p} \\ Y =& X \beta + \varepsilon \\ y =& f \left( x_{1} , \cdots , x_{p} \right) \end{align*} 例外もある。時系列分析などでは、通常従属変数自体がラグを持って独立変数になりうるため、表記を区別せず、すべてのデータをYYで表すこともある。