통계학에서의 척도: 명목, 순서, 구간, 비율
개요
일반적으로, 실제 세상에서 데이터를 만든다는 것은 현상이나 실험을 관측observe하여 그에 대해 기록하는 작업을 말하며, 이를 측정한다measure고 말한다.
정의 1
데이터를 측정함에 있어 다음의 네 가지 척도scale가 알려져 있다.
- 명목nominal: 분류 그 자체에 목적을 둔다.
- 순서ordinal: 순서를 부여한다.
- 구간interval: 특정 구간에서 정해진다.
- 비율ratio: 특정 단위의 비례해서 표현된다.
설명
명목척도와 순서척도는 질적변수에 쓰이고, 구간척도와 비율척도는 양적변수에 쓰인다.
위 정의는 대충 임의로 나열된 게 아니라 번호가 높을수록 세밀한 척도가 되며, 논리적으로 봤을 때 앞쪽 척도가 뒤쪽 번호를 포함하는 포함관계를 가진다. 모든 비율척도는 명목척도지만 모든 명목척도가 비율척도는 아니다. $$ 명목 \supset 순서 \supset 구간 \supset 비율 $$
원활하고 자세한 설명을 위해 반복해서 사용될 예시를 생각보자. 우리는 올해 첫 중간고사가 끝난 후 ‘실험실’이라는 방에 통계학과 신입생 100명을 모아놓고 각자의 정보를 수집, 다시 말해 측정했다. 그 중 아담adam과 이브eve 두 사람의 정보는 다음과 같았다.
- 아담: 체중 92kg, 중간고사 30점, IQ 상위 12위, 남성
- 이브: 체중 46kg, 중간고사 90점, IQ 상위 48위, 여성
여기서 체중은 비율척도, 중간고사는 구간척도, IQ 등수는 순서척도, 성별은 명목척도다.
비율
비율척도는 절대온도 등이 있으며, 그 정의에서부터 ‘비례’가 등장해서 이에 따라 스칼라 곱이 가능하다. 예로써 아담의 체중 92kg은 이브의 체중 46kg에 대해 $$ 92 = 2 \cdot 46 $$ 과 같이 나타낼 수 있으며, 이는 아담의 체중이 이브의 체중의 두 배라는 뜻이다.
무슨 맥 빠지는 말인가 싶겠지만 이는 의외로 당연한 게 아니다. 가령 절대온도가 아니라 섭씨온도를 생각해보면, 섭씨 60도는 섭씨 30도에 비해 두 배로 덥다는 뜻이 아니라 그냥 있는 그대로 섭씨 30도만큼 온도가 더 높은 것에 불과하다.
이 짤은 물론 55분 간 350도로 굽는 것이나 1분 간 19250도로 굽는 것이나 같다고 과장하며 열 받으라고 만들어놓은 유머짤이긴 하지만, 비율 척도의 관점으로 보면 사실 55와 19250를 곱하는 것부터가 말이 안 되는 포인트다. 웃자고 한 농담을 진지하게 받아들일 필요는 없지만, 이런 점이 보이느냐 안 보이느냐의 차이는 데이터를 다루는 습관을 바꾸기도 한다.
구간
구간척도는 섭씨온도 등이 있으며, 단위에 따라 덧셈이나 뺄셈은 할 수 있지만 딱히 그 숫자가 비례를 나타낼 필요는 없다. 물론 모든 비율척도는 어떤 단위의 곱으로 나타날 수 있으므로 구간척도지만, 그 역은 성립하지 않는 것이다. 예로써 중간고사에서 아담은 30점을 받고 이브는 90점을 받았는데 이것이 “두 사람의 실력 차이가 세 배"라는 의미가 되지는 않는다. 조금 헷갈릴까봐 첨언하자면, 점수 자체가 3배가 아니라는 것이 아니라 그것이 의미 있는 비례관계로 이어지지 않는다는 의미다. 3배는 묘하게 현실성 있어보이니까 조금 더 극단적인 예로써 아담의 점수를 $x$라 상상해보자:
- $x = 1 \sim 2$: 고작 $1$점짜리 문제 하나의 차이일 뿐인데 $1$점일 땐 이브와 90배 차이가 나고 $2$점일땐 45배 차이가 난다는 말인데, 이건 너무 극단적이다.
- $x = 0$: 아예 배수로 표현이 안 된다. 곱셈은 $0$의 저주에서 풀려날 수 없으며, 반대로 말해서 구간척도에서 더 나간 비례척도는 이러한 $0$을 배제한―$0$에서 자유로운 척도임을 알 수 있다.
- $x = -90$: 교수님들 중에는 쓸데없는 답을 적어서 틀리면 오히려 감점을 하는 경우도 있다. 그래서 점수가 음수가 될 수 있는데, 아담의 성적이 이브의 $-1$배라는 것은 그 의미를 찾기 어렵다.
다시 한 번 말하지만 수 자체에 스칼라 곱이 안 된다는 게 아니라 그렇게 하는 의미가 없다는 것이다.
순서
순서척도는 서열이 있는 거의 모든 것이 포함된다. 비전공자들이 가장 크게 방심하는 부분인데, 순서가 존재해서 대소관계 등만 비교할 수 있을 뿐 사칙연산이 의미가 없다. 예로써 아담의 IQ는 12위고 이브의 IQ는 48위인데, 그 사이에 25위인 학생과는 같은 정도로 차이가 난다고 할 수 없다. 조금 더 극단적으로는 1등, 2등의 차이와 49등, 50등의 차이가 같지는 않을 것이다.
이들은 단순히 서열만으로 구분할 수 있을뿐 ‘얼마나 차이가 나는지’에 대한 정보가 없으며, 순위를 더하거나 뺀다는 것이 무의미함을 짐작할 수 있다. 순위 차이를 숫자로 계산하는 것 자체는 가능하지만 그에 대한 일관된 의미가 없고, 의미가 있다면 그것은 이미 구간척도일 것이다.
명목
명목척도는 이제 구분할수만 있기만 하면 된다. 실질적으로는 질적변수만을 고려하지만, 사실 그 정의만 생각해봤을 땐 지금까지의 모든 척도를 포함한다. 예로써 아담은 남성이고 이브는 여성으로 구분되지만, 사실 두 사람의 특징은 무엇 하나 같은 것이 없었다. 그러한 의미에서 키, 중간고사 성적, IQ 순위, 성별은 모두 명목척도임을 바로 알 수 있긴하다.
그러나 굳이 그래야할까? 키는 아주 작은 $\varepsilon > 0$ 만 달라도 구분될 수 있는데 그걸 그렇게 억지로 구분해야할까? 다른 척도에 대한 설명에서 ‘가능하냐 불가능하냐’ 그 자체보다는 그래서 무슨 ‘의미가 있는가’에 대해 주목했다는 점을 떠올려보면, 명목척도는 사실상 질적변수밖에 없다는 점에 동의할 수 있을 것이다. 단지 그 표기가 수일 가능성이 있을 뿐이다.
긴장해라
쉬워보인다고 해서 척도를 우습고 만만하게 생각하지 말아야한다. 이 포스트에서처럼 자세하게 설명 안 하더라도, 보통 사람들은 스스로 척도에 대한 개념이 잘 잡혀있다고 믿는다. 그러나 실제로는 어처구니 없을 정도로 제멋대로의 해석과 어리석은 결론이 빗발치며 ‘이정도는 쉽기 때문에’ 자신의 사고와 판단에 한 치의 의심조차 가지지 않는 경우가 많다.
지금 이 글을 보고 있는 당신은 특별하다. 적어도 데이터를 다루는 부분에 있어서는 대부분의 비전공자들과 확실하게 다르다. 당신이 정신을 똑바로 차리지 않으면 이 당연한 것들을 아무도 모른다고 생각해야 한다. 항상 긴장하면서 살아가자.
경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p10~11. ↩︎