logo

데이터과학에서 독립변수와 종속변수 📂데이터과학

데이터과학에서 독립변수와 종속변수

용어

통계학이나 머신러닝데이터과학의 분야의 모델model에서 데이터의 변수는 크게 다음의 두가지 부류로 나뉜다.

종속변수

종속변수dependent variable란 대개 모델의 결과, 출력으로 기대되는 변수를 말하며 출력output, 예측변수predictor variable라 부르기도 한다.

독립변수

독립변수independent variable란 종속변수에 영향을 미치는 입력 변수를 말하며 입력input, 설명변수explanatory variable라 부르기도 한다.

설명

예시

한국 여성의 평균 신장이 159.6cm, 한국 남성의 평균신장이 172.5cm이고 그 비율은 $\displaystyle 1.081 \approx {{ 172.5 } \over { 159.6 }}$ 정도쯤 된다. $$ y = y \left( x_{1} , x_{2} \right) = {{ 1.08 } \over { 2 }} x_{1} + {{ 1.00 } \over { 2 }} x_{2} $$ 아주 간단한 예시로 아들의 키 $y$ 를 어머니의 키 $x_{1}$ 과 아버지의 키 $x_{2}$ 만으로 예측하는 위의 모델을 생각해보자. 모델은 단순히 평균만 가지고 어머니들의 평균키를 아버지들의 평균키만큼 스케일링한 후 평균을 취해서 얻은 것이다. 딸의 키를 예측하고 싶다면 아버지의 키를 어머니의 키에 맞춰서 스케일링하면 될 것이다.

  • $y$ 는 모델에서 우리가 예측하고 싶은 예측변수고, 아들의 키를 설명하는게 부모님들의 키 $x_{1} , x_{2}$ 니까 이들을 설명변수라 부른다.
  • $y$ 가 $x_{1}, x_{2}$ 에 종속되어 있다는 가정이 없다면 이 모델은 아무 의미가 없고, 그래서 종속변수라 부른다. 독립변수는 그냥 이와 대비되는 용어로 보아도 무방한데, 꼭 $x_{1}, x_{2}$ 끼리 서로 독립인 것은 아니기 때문이다.
  • 자세한 의미를 이해하지 못하더라도, 그냥 수식에다가 $x_{1} = 169$ 이랑 $x_{2} = 174$ 을 입력하면 아들의 키가 $y = 178.26$ 로 출력되는 것은 확실하다.

노테이션

보통 아무 설명도 없다면 독립변수는 $X$, 종속변수는 $Y$ 로 두며 $Y$ 가 좌변에 오는 편이다. $$ \begin{align*} Y \gets & X_{1} , \cdots , X_{p} \\ Y =& X \beta + \varepsilon \\ y =& f \left( x_{1} , \cdots , x_{p} \right) \end{align*} $$ 예외도 있다. 시계열 분석 등에서는 보통 종속변수 스스로가 시차lag를 두고 독립변수가 되기도 하므로 표기를 구분하지 않고 모든 데이터를 $Y$ 로 표현하기도 한다.