logo

통계학에서의 척도: 명목, 순서, 구간, 비율 📂데이터과학

통계학에서의 척도: 명목, 순서, 구간, 비율

개요

일반적으로, 실제 세상에서 데이터를 만든다는 것은 현상이나 실험을 관측observe하여 그에 대해 기록하는 작업을 말하며, 이를 측정한다measure고 말한다.

정의 1

데이터를 측정함에 있어 다음의 네 가지 척도scale가 알려져 있다.

  1. 명목nominal: 분류 그 자체에 목적을 둔다.
  2. 순서ordinal: 순서를 부여한다.
  3. 구간interval: 특정 구간에서 정해진다.
  4. 비율ratio: 특정 단위의 비례해서 표현된다.

설명

명목척도와 순서척도는 질적변수에 쓰이고, 구간척도와 비율척도는 양적변수에 쓰인다.

위 정의는 대충 임의로 나열된 게 아니라 번호가 높을수록 세밀한 척도가 되며, 논리적으로 봤을 때 앞쪽 척도가 뒤쪽 번호를 포함하는 포함관계를 가진다. 모든 비율척도는 명목척도지만 모든 명목척도가 비율척도는 아니다. 명목순서구간비율 명목 \supset 순서 \supset 구간 \supset 비율

원활하고 자세한 설명을 위해 반복해서 사용될 예시를 생각보자. 우리는 올해 첫 중간고사가 끝난 후 ‘실험실’이라는 방에 통계학과 신입생 100명을 모아놓고 각자의 정보를 수집, 다시 말해 측정했다. 그 중 아담adam과 이브eve 두 사람의 정보는 다음과 같았다.

  • 아담: 체중 92kg, 중간고사 30점, IQ 상위 12위, 남성
  • 이브: 체중 46kg, 중간고사 90점, IQ 상위 48위, 여성

여기서 체중은 비율척도, 중간고사는 구간척도, IQ 등수는 순서척도, 성별은 명목척도다.

비율

비율척도는 절대온도 등이 있으며, 그 정의에서부터 ‘비례’가 등장해서 이에 따라 스칼라 곱이 가능하다. 예로써 아담의 체중 92kg은 이브의 체중 46kg에 대해 92=246 92 = 2 \cdot 46 과 같이 나타낼 수 있으며, 이는 아담의 체중이 이브의 체중의 두 배라는 뜻이다.

끄덕.gif

무슨 맥 빠지는 말인가 싶겠지만 이는 의외로 당연한 게 아니다. 가령 절대온도가 아니라 섭씨온도를 생각해보면, 섭씨 60도는 섭씨 30도에 비해 두 배로 덥다는 뜻이 아니라 그냥 있는 그대로 섭씨 30도만큼 온도가 더 높은 것에 불과하다.

alt text

이 짤은 물론 55분 간 350도로 굽는 것이나 1분 간 19250도로 굽는 것이나 같다고 과장하며 열 받으라고 만들어놓은 유머짤이긴 하지만, 비율 척도의 관점으로 보면 사실 55와 19250를 곱하는 것부터가 말이 안 되는 포인트다. 웃자고 한 농담을 진지하게 받아들일 필요는 없지만, 이런 점이 보이느냐 안 보이느냐의 차이는 데이터를 다루는 습관을 바꾸기도 한다.

구간

구간척도는 섭씨온도 등이 있으며, 단위에 따라 덧셈이나 뺄셈은 할 수 있지만 딱히 그 숫자가 비례를 나타낼 필요는 없다. 물론 모든 비율척도는 어떤 단위의 곱으로 나타날 수 있으므로 구간척도지만, 그 역은 성립하지 않는 것이다. 예로써 중간고사에서 아담은 30점을 받고 이브는 90점을 받았는데 이것이 “두 사람의 실력 차이가 세 배"라는 의미가 되지는 않는다. 조금 헷갈릴까봐 첨언하자면, 점수 자체가 3배가 아니라는 것이 아니라 그것이 의미 있는 비례관계로 이어지지 않는다는 의미다. 3배는 묘하게 현실성 있어보이니까 조금 더 극단적인 예로써 아담의 점수를 xx라 상상해보자:

  • x=12x = 1 \sim 2: 고작 11점짜리 문제 하나의 차이일 뿐인데 11점일 땐 이브와 90배 차이가 나고 22점일땐 45배 차이가 난다는 말인데, 이건 너무 극단적이다.
  • x=0x = 0: 아예 배수로 표현이 안 된다. 곱셈은 00의 저주에서 풀려날 수 없으며, 반대로 말해서 구간척도에서 더 나간 비례척도는 이러한 00을 배제한―00에서 자유로운 척도임을 알 수 있다.
  • x=90x = -90: 교수님들 중에는 쓸데없는 답을 적어서 틀리면 오히려 감점을 하는 경우도 있다. 그래서 점수가 음수가 될 수 있는데, 아담의 성적이 이브의 1-1배라는 것은 그 의미를 찾기 어렵다.

다시 한 번 말하지만 수 자체에 스칼라 곱이 안 된다는 게 아니라 그렇게 하는 의미가 없다는 것이다.

순서

순서척도는 서열이 있는 거의 모든 것이 포함된다. 비전공자들이 가장 크게 방심하는 부분인데, 순서가 존재해서 대소관계 등만 비교할 수 있을 뿐 사칙연산이 의미가 없다. 예로써 아담의 IQ는 12위고 이브의 IQ는 48위인데, 그 사이에 25위인 학생과는 같은 정도로 차이가 난다고 할 수 없다. 조금 더 극단적으로는 1등, 2등의 차이와 49등, 50등의 차이가 같지는 않을 것이다.

이들은 단순히 서열만으로 구분할 수 있을뿐 ‘얼마나 차이가 나는지’에 대한 정보가 없으며, 순위를 더하거나 뺀다는 것이 무의미함을 짐작할 수 있다. 순위 차이를 숫자로 계산하는 것 자체는 가능하지만 그에 대한 일관된 의미가 없고, 의미가 있다면 그것은 이미 구간척도일 것이다.

명목

명목척도는 이제 구분할수만 있기만 하면 된다. 실질적으로는 질적변수만을 고려하지만, 사실 그 정의만 생각해봤을 땐 지금까지의 모든 척도를 포함한다. 예로써 아담은 남성이고 이브는 여성으로 구분되지만, 사실 두 사람의 특징은 무엇 하나 같은 것이 없었다. 그러한 의미에서 키, 중간고사 성적, IQ 순위, 성별은 모두 명목척도임을 바로 알 수 있긴하다.

그러나 굳이 그래야할까? 키는 아주 작은 ε>0\varepsilon > 0 만 달라도 구분될 수 있는데 그걸 그렇게 억지로 구분해야할까? 다른 척도에 대한 설명에서 ‘가능하냐 불가능하냐’ 그 자체보다는 그래서 무슨 ‘의미가 있는가’에 대해 주목했다는 점을 떠올려보면, 명목척도는 사실상 질적변수밖에 없다는 점에 동의할 수 있을 것이다. 단지 그 표기가 수일 가능성이 있을 뿐이다.

긴장해라

쉬워보인다고 해서 척도를 우습고 만만하게 생각하지 말아야한다. 이 포스트에서처럼 자세하게 설명 안 하더라도, 보통 사람들은 스스로 척도에 대한 개념이 잘 잡혀있다고 믿는다. 그러나 실제로는 어처구니 없을 정도로 제멋대로의 해석과 어리석은 결론이 빗발치며 ‘이정도는 쉽기 때문에’ 자신의 사고와 판단에 한 치의 의심조차 가지지 않는 경우가 많다.

지금 이 글을 보고 있는 당신은 특별하다. 적어도 데이터를 다루는 부분에 있어서는 대부분의 비전공자들과 확실하게 다르다. 당신이 정신을 똑바로 차리지 않으면 이 당연한 것들을 아무도 모른다고 생각해야 한다. 항상 긴장하면서 살아가자.


  1. 경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p10~11. ↩︎