データサイエンスにおける独立変数と従属変数
📂データサイエンスデータサイエンスにおける独立変数と従属変数
用語
統計学や機械学習、その他のデータ科学の分野のモデルで、変数は一般的に以下の二つのカテゴリーに分けられる。
従属変数
従属変数は、通常モデルの結果や出力として期待される変数を指し、出力や予測変数とも呼ぶ。
独立変数
独立変数は、従属変数に影響を与える入力変数を指し、入力や説明変数とも呼ぶ。
説明
例
韓国女性の平均身長は159.6cm、韓国男性の平均身長は172.5cmであり、その比率は大体1.081≈159.6172.5くらいだ。
y=y(x1,x2)=21.08x1+21.00x2
非常に簡単な例として、母の身長x1と父の身長x2だけを使って息子の身長yを予測するモデルを考えてみる。モデルは単に母の平均身長を父の平均身長と同じスケールに変換して平均を取ったものだ。娘の身長を予測したい場合は、父の身長を母の身長に合わせてスケールすれば良い。
- yはモデルで予測したい予測変数で、息子の身長を説明するのが両親の身長x1,x2なので、これらを説明変数と呼ぶ。
- yがx1,x2に依存しているという仮定がなければ、このモデルは意味をなさない。だから従属変数と呼ぶ。独立変数はその対立用語としても構わないが、x1,x2が相互に独立しているとは限らないからだ。
- 詳しい意味がわからなくても、式にx1=169やx2=174を入力すると息子の身長がy=178.26として出力されることは確かだ。
表記
通常、特に説明がなければ独立変数はXで表し、従属変数はYで表し、Yを左辺に置く。
Y←Y=y=X1,⋯,XpXβ+εf(x1,⋯,xp)
例外もある。時系列分析などでは、通常従属変数自体がラグを持って独立変数になりうるため、表記を区別せず、すべてのデータをYで表すこともある。