logo

統計学における尺度:名義、順序、区間、比率 📂データサイエンス

統計学における尺度:名義、順序、区間、比率

概要

一般的に、実際の世界でデータを 作ることは、現象や実験を観察して、それについて記録する作業を言い、これを計測すると言う。

定義 1

データを計測するにあたり、以下の4つの尺度が知られている。

  1. 名義:分類そのものに目的を置く。
  2. 順序:順序を付ける。
  3. 区間:特定の区間で定められる。
  4. 比率:特定の単位に比例して表される。

説明

名義尺度と順序尺度は質的変数に使われ、区間尺度と比率尺度は量的変数に使われる。

この定義は適当に列挙されたわけではなく、番号が高いほど細かい尺度になり、論理的に見ると、前の尺度が後ろの番号を含む包含関係を持つ。全ての比率尺度は名義尺度だが、全ての名義尺度が比率尺度ではない。 $$ 명목 \supset 순서 \supset 구간 \supset 비율 $$

スムーズで詳細な説明のため、繰り返し使われる例を考えよう。今年の最初の中間テストが終わった後、「実験室」という部屋に統計学部の新入生100人を集めて、それぞれの情報を収集、つまり計測した。その中で、アダムとイブという二人の情報は次のようだった。

  • アダム:体重92kg、中間テスト30点、IQ上位12位、男性
  • イブ:体重46kg、中間テスト90点、IQ上位48位、女性

ここで体重は比率尺度、中間テストは区間尺度、IQ順位は順序尺度、性別は名義尺度だ。

比率

比率尺度には絶対温度などがあり、その定義から「比例」が登場し、スカラー積が可能になる。例えば、アダムの体重92kgはイブの体重46kgに対して $$ 92 = 2 \cdot 46 $$ のように表せ、これはアダムの体重がイブの体重の二倍であることを意味する。

Nod.gif

何となく物足りない話のように思えるかもしれないが、これは意外と当然ではない。例えば、絶対温度ではなく摂氏温度を考えると、摂氏60度は摂氏30度の二倍暑いという意味ではなく、単に摂氏30度暖かいだけだ。

区間

区間尺度には摂氏温度などがあり、加算や減算はできるが、その数字が比例を表す必要はない。もちろん、すべての比率尺度は何らかの単位の積で表せるが、逆は成り立たない。例えば、中間テストでアダムは30点を取り、イブは90点を取ったが、これが「二人の能力の差が三倍」という意味にはならない。 アダムの点数を$x$と想像してみるよりも極端な例で言うと:

  • $x = 1 \sim 2$:たった$1$点の問題の差なのに$1$点ではイブと90倍の差があり、$2$点では45倍の差があるというのは、あまりにも極端だ。
  • $x = 0$:倍数で表せない。掛け算は$0$の呪いから逃れられず、逆に言えば、区間尺度を超えた比率尺度は、このような$0$から自由な尺度であることがわかる。
  • $x = -90$:教授の中には、無駄な答えを書いて間違えると減点する場合もある。そのため、点数がマイナスになることもあるが、アダムの成績がイブの$-1$倍であることは理解しにくい。

再度言うが、スカラー積そのものができないというわけではなく、そうする意味がないということだ。

順序

順序尺度はほぼ全ての階層があるものに含まれる。専門外の人たちが最も油断する部分で、順序が存在するので大小関係などの比較はできるが、四則演算は意味がない。例えば、アダムのIQは12位、イブのIQは48位だが、その間に25位の学生と同じ程度に差があるとは言えない。 もっと極端に言うと、1位、2位の差と49位、50位の差が同じではないだろう。

これらは単に順位だけで区別できるが、「どれだけの差があるか」という情報は提供されず、順位を足したり引いたりすること自体が無意味であると推測される。順位差を数字で計算することは可能だが、それに対する一貫した意味はなく、意味があれば、それはもう区間尺度である。

名義

名義尺度はもはや区別できれば良い。実際には質的変数のみを考慮するが、実際にその定義だけを考えれば、これまでの全ての尺度を含む。例えば、アダムは男性として、イブは女性として区別されるが、実際には二人の特徴は何も共通点がなかった。この意味で、身長、中間テストの成績、IQ順位、性別はすぐに名義尺度であることがわかるだろう。

しかし、それを無理にする必要があるのか? たとえ身長がとても小さな$\varepsilon > 0$だけ異なっても、それを無理に区別する必要があるのか? 他の尺度の説明で、「できるかどうか」そのものよりも、では「意味があるのか」という点に注目されたことを思い出せば、名義尺度は事実上質的変数しかないということに同意できるだろう。ただし、その表示が数値である可能性があるにすぎない。

緊張して

簡単に見えるからといって、尺度を軽んじてはいけない。この投稿のように詳細に説明しなくても、一般の人々は自分自身が尺度に関する概念をよく理解していると信じがちだ。しかし、実際には任意の解釈と愚かな結論がはびこるほど、それは「これくらいは簡単だから」と自分の思考と判断に少しも疑問を持たないことが多い。

このテキストを読んでいるあなたは特別だ。少なくともデータを扱う部分では、ほとんどの専門外の人々と確実に異なる。あなたが気を抜かない限り、これら当たり前のことを誰も知らないと思わなければならない。常に緊張しながら生きよう。


  1. 경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p10~11. ↩︎