logo

질적변수와 양적변수 📂데이터과학

질적변수와 양적변수

정의 1

질적변수

질적qualitative인 특성을 측정한 변수질적변수라 한다.

  • 음식이… 맛있다 / 그럭저럭이다 / 맛없다
  • 색깔이… 빨갛다 / 파랗다 / 노랗다
  • 전공이… 수학 / 통계학 / 물리학

이러한 질적변수는 흔히 범주형categorical 데이터라 하기도 한다.

양적변수

양적quantitative인 특성을 측정한 변수양적변수라 한다.

  • 나이가… 20살 / 31살 / 11살
  • 신장이… 170.0cm / 170.5cm / 162.1cm

나이나 시력처럼 딱 떨어지는(?) 값들을 취하는 양적변수를 이산discrete 변수, 신장이나 체중처럼 연속적인 값을 취하는 양적변수를 연속continuous 변수라 한다.

설명

정의가 뭐 저따위냐 싶을 수 있겠지만, 사실 ‘질적’과 ‘양적’이라는 어휘는 원래 알던 어휘가 아니라 이러한 학술적 용어에서 일상 표현으로 배워가는 게 오히려 올바를 수 있다. 가령 어떤 물건의 질을 평가할 때 우리는 말 그대로 ‘퀄리티가 뛰어나다’라는 식의 표현을 사용하곤하는데, ‘질높은’이나 ‘질낮은’이라는 말 자체가 ‘1432만큼 좋은’이나 ‘17%만큼 좋은’과 어떻게 다른지 보아라.

  • 질적이라는 것은 이렇듯 어떤 순서(좋다-별로다-싫다)를 가질수는 있지만 보통 수치적으로 나타내기 곤란한 것들을 말한다. 당연히 순서가 없이 범주화(독일어-프랑스어-일본어)되어 있어도 문제 없다.
  • 양적은 그 반대로 양amount을 나타내는 걸 말한다. 다만 여기서 이산변수연속변수의 정의가 조금 난해할 수 있다.

딱 떨어지는…?

딱 떨어지는 값이라는 말은 소위 자연수나 눈금이 있는 것처럼 어떤 단위로 간격을 두는 값들을 설명하는 표현이다. 당연히 어떤 책에서도 본 적이 없을 것이고 나 역시도 본 적이 없으며, 쓰면서도 별로라는 걸 인정한다. 대신 내 마음에 쏙 드는 표현은 다음과 같다.

카운터블한 값을 취하는 변수를 이산변수라 한다. 그 값이 오직 유한하거나 셀 수 있는 값일 때만을 가정한다.

문제는 이렇게 수학적으로 정확한 표현이 당장 이산변수가 뭔지 헷갈리는 여러분에게 아무 짝에도 쓸모가 없다는 것이다. 이러한 표현을 이해한다는 것은 이산변수가 뭔지 아는 사람이 이산변수가 무엇인지 배우는 것과 다름 없다.

어떤 수량이 Countable이라함은 인도유럽어족, 예를 들어 우리에게 친숙한 영어, 프랑스어, 스페인어 등에서 ‘한 개, 두 개, …’ 하면서 ‘몇 개’라고 카운팅을 할 수 있는 걸 말한다. 영어에서 그러한 것을 표현하는 명사가 있다면 그걸 가산명사라고 부르고, 수학적으로 말하자면 자연수의 집합과 일대일대응이 존재하는 것이다.

별로 도움이 되는 설명이 아닐 것이다. 예시를 보고 이해해보자. 다음의 수들은 대개 이산변수다:

  • 한 농장에 있는 돼지의 수
  • 연간 교통사고 사망자 수
  • 전공책의 페이지 수
  • 유아기의 연령… ‘24개월 남자아이’, ‘1년 2개월 여아’ 등
  • 1L짜리 물통의 수

다음은 이산변수인지 아닌지 헷갈릴 수 있는 예시다:

  • 1L짜리 물통 3개에 담긴 물의 양… 물통의 수가 아니라 물의 양이면 연속형이다.
  • 시력… 보통 한 틱에 0.1인데, 만약 이것이 0.5 단위로 0.5, 1.0, 1.5 세 그룹 뿐이라면 이산변수로 볼 수 있으며 심지어 데이터의 구성에 따라서는 질적변수로 볼 여지도 있다.

분류문제와 회귀문제

보통 데이터과학에서는 종속변수가 질적변수인가 양적변수인가에 따라 분류문제와 회귀문제를 구분한다.

주의사항

실제 데이터를 다루면서 경험이 부족한 초심자가 하기 쉬운 실수들이 있다. 질적변수와 양적변수를 이해하지 못한 것이 아니라 말 그대로 익숙하지 않기 때문에 할 수 있는 실수들이며, ‘누구나’라고 해도 될만큼 많이 하는 실수들이다. 많은 경우 회귀분석정도로 어려운 걸 공부할쯤에나 이러한 함정에 걸리며, 그 직관을 인위적으로 기를 수 있는 기회는 거의 없다. 다음의 포스트를 보면 정확히 무슨 말인지는 몰라도 그게 어떤 함정인지는 대강 감이 잡힐 수도 있다.

인코딩

성별을 나타낼 때 남자를 $0$, 여성을 $1$로 인코딩encoding하는 등의 경우를 종종 볼 수 있는데, 단지 눈에 보이는 숫자가 있다고 해도 이것이 이산변수(양적변수)가 되지는 않는다.

이러한 인코딩은 프라이버시를 위해서도 쓰인다. 상상하기를, 의료데이터는 개인의 민감한 정보를 많이, 그것도 어떤 사람에게는 데이터만으로 개개인을 특정할 수 있을 정도로 특징적인 변수가 많다. 이러한 경우 데이터를 공개하되 어떠한 정보를 단순히 숫자로 가릴 수도 있다. 예로써 정신병력, 여성의 낙태여부 등이 있다.

레이팅

마찬가지로 인코딩과 같이 레이팅이 있는 경우, 예를 들어 고졸이 $0$이고 대졸이 $1$이고 박사가 $2$로 나타낸다면 이것이야 말로 양적변수로 보이지만 여전히 질적변수다. 소위 저학력이니 고학력이니 하는 것은 일반사회의 통념에 불과하며, 데이터적으로 이 숫자들은 딱히 서열을 나타내지 않는다. 실생활의 다양한 예시로도 이러한 주장을 이어갈 수 있지만, 당장 고졸이 $1$, 대졸이 $0$, 박사가 $2$로 인코딩 된다고만 해도 이미 양적변수가 아님을 알 수 있을 것이다.

헥사코드

빨간색과 파랑색을 구별하는 것은 질적변수지만, 분홍색-다홍색-진홍색을 구분하는 데이터는 어떠한가? 이것이 립스틱의 이야기라면 여전히 질적변수로 충분하겠지만, 가령 옷감의 색깔이며 수천가지의 색상이 된다면 이들을 RGB 헥사코드로 나타낼 수도 있다. 이러한 데이터를 접할 일을 좀처럼 없지만, 직관적으로 질적변수라 해도 양적변수로 나타날 수 있는 가능성은 얼마든지 있다는 점을 염두에 두어야한다.

젠더

데이터에서 젠더gender라는 범주가 등장할 때도 있는데, 당신이 정치적 올바름political correctness에 공감하든 염증을 느끼든 데이터가 그렇게 주어져 있다면 일단은 있는 그대로 받아들여야한다.

  • 실화다. 위에서 성별로 본 예시와 같이 젠더가 $0,1,2,3, \cdots$ 로 인코딩된 데이터가 있었는데, 젠더이슈에 전혀 관심이 없었던 한 선배가 ‘이거 젠더에서 2랑 3은 뭐냐?‘하고 당황하던 걸 본 적이 있다. 미국 사회에서 조사된 데이터에서는 종종 이런 일이 있다.

요지는 이런 일이 없게끔 젠더이슈에 관심을 가지고 공부를 하라는 게 아니라, 특정 도메인domain에 대한 지식이 부족하다면 직관에만 의존해서 데이터를 살피지 말라는 것이다.

우리는 이런 걸 왜 알아야하는걸까?

이렇게 쉽고 간단한 것들인만큼, 우리는 이들을 정확히 구분하고 이해할 수 있어야한다. 여기서 우리는 통계학을 응용할 연구자를 포함해 통계학 전공자, 혹은 다른 곳에 백그라운드를 두더라도 데이터과학에 종사할 가능성이 있는 이들을 말한다.

이렇게 우리가 설명을 찾고 공부를 하고 과제를 하면서 경험을 쌓고 발표에 익숙해지는동안, 여러분의 동료들은 나름대로 사회에 적합한 무언가를 하고 있었을 것이다. 안타깝게도 그 일들은 많이 힘들었기 때문에, 우리만큼 데이터에 정통하지 않을 가능성이 높다.

그들은 데이터에 무관심하거나 무지해서 여기서 언급된 주의사항을 지키지 않고 이 어처구니 없는 실수들을 저지르고 있을 수 있다. 그리고 그것들에 대해 의심하지 않는 일반 대중을 상상해보자. 당신의 상사boss도 예외는 아니다.

우리는 그걸 막아야한다.


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p10. ↩︎