logo

質的変数と連続変数 📂データサイエンス

質的変数と連続変数

定義 1

質的変数

質的qualitativeな特性を測定した変数質的変数という。

  • 食べ物が… 美味しい / まあまあ / まずい
  • 色が… 赤い / 青い / 黄色い
  • 専攻が… 数学 / 統計学 / 物理学

このような質的変数は、一般的にカテゴリカルcategoricalデータとも言われる。

量的変数

量的quantitativeな特性を測定した変数量的変数という。

  • 年齢が… 20歳 / 31歳 / 11歳
  • 身長が… 170.0cm / 170.5cm / 162.1cm

年齢や視力のようにはっきりとした値をとる量的変数を離散discrete変数、身長や体重のように連続的な値をとる量的変数を連続continuous変数という。

説明

定義がなんだか奇妙に思えるかもしれないが、実際に「質的」と「量的」という言葉は、元々知っていた言葉ではなく、このような学術的な用語から日常的な表現を学ぶほうがむしろ正しいかもしれない。例えば、何かの品質を評価するときに、私たちは文字通り「クオリティが高い」という表現をよく使う。しかし、「質が高い」「質が低い」という言葉自体が、「1432ほど良い」や「17%ほど良い」とどう違うのかを考えてみよう。

  • 質的とは、このようにある順序(良い-まあまあ-悪い)を持つことはできるが、通常数値で表すのが難しいものを指す。もちろん、カテゴリー化されている(ドイツ語-フランス語-日本語)も問題ない。
  • 量的はその反対で、量amountを表すものを指す。ただし、ここで離散変数連続変数の定義は少し難解かもしれない。

はっきりとした値とは?

はっきりとした値とは、いわゆる自然数や目盛りがあるような、ある単位で間隔を置いた値を説明する表現である。もちろん、どんな本にもそんなことは書いてないだろうし、私も見たことがない。そして、書きながらもあまり良い表現ではないと認める。代わりに私がとても気に入っている表現は以下の通りである。

カウンタブルな値を取る変数を離散変数という。その値が限定的であるか数えることができるときのみを想定する。

問題は、このように数学的に正確な表現が、すぐに離散変数が何なのか混乱しているあなたには何の役にも立たないことである。このような表現を理解することは、離散変数が何であるかを知っている人が離散変数について学ぶのと変わらない。

何かがCountableであるとは、インド・ヨーロッパ語族、例えば私たちに馴染み深い英語、フランス語、スペイン語などで「1つ、2つ、…」と数えられるものを指す。英語でそのようなものを表す名詞があれば、それを可算名詞と呼び、数学的に言えば自然数の集合と一対一対応が存在する。

あまり役に立たない説明かもしれない。例を見て理解してみよう。以下の数は大抵離散変数である:

  • 牧場にいる豚の数
  • 年間交通事故の死者数
  • 専門書のページ数
  • 幼児の年齢…「24ヶ月の男の子」、「1歳2ヶ月の女の子」など
  • 1Lの水筒の数

次に、離散変数かどうか迷うかもしれない例を見てみよう:

  • 1Lの水筒3つに入っている水の量… 水筒の数ではなく、水の量なら連続型である。
  • 視力… 通常は0.1刻みだが、もし0.5、1.0、1.5の3つのグループしかなければ、離散変数

と見なすことができ、データの構成によっては質的変数と見なす余地もある。

分類問題と回帰問題

通常、データサイエンスでは、従属変数が質的変数か量的変数かによって、分類問題と回帰問題を区別する。

注意事項

実際にデータを扱いながら、経験が少ない初心者が犯しやすいミスがある。質的変数と量的変数を理解していないわけではなく、単に慣れていないために起こり得るミスであり、誰もが犯す可能性のあるミスである。多くの場合、回帰分析のような難しいものを勉強する頃にこのような罠に陥り、その直感を人工的に養う機会はほとんどない。次の投稿を見ると、正確に何を意味するのかはわからないかもしれないが、それがどのような罠なのかは大まかに理解できるかもしれない。

エンコーディング

性別を示す際に、男性を$0$、女性を$1$とエンコーディングencodingする場合がよくあるが、目に見える数字があるからといって、これが離散変数(量的変数)になるわけではない。

このようなエンコーディングは、プライバシーのためにも使用される。想像してみよう。医療データは、個人の敏感な情報を多く含み、場合によってはデータだけで個々の人を特定できるほど特徴的な変数が多い。このような場合、データを公開する際に特定の情報を単に数字で隠すこともある。例えば、精神病歴、女性の中絶の有無などがある。

レーティング

同様にエンコーディングの場合、レーティングが存在する場合がある。例えば、高卒が$0$、大卒が$1$、博士が$2$と表される場合、これが量的変数のように見えるが、依然として質的変数である。いわゆる低学歴、高学歴などは、一般社会の通念に過ぎず、データ的にこれらの数字は特に順序を示さない。現実のさまざまな例でこの主張を続けることができるが、ただちに高卒が$1$、大卒が$0$、博士が$2$とエンコーディングされるだけで、すでに量的変数ではないことがわかるだろう。

ヘックスコード

赤と青を区別することは質的変数だが、ピンク、ローズピンク、ディープピンクを区別するデータはどうだろう?これが口紅の話であれば、依然として質的変数で十分だが、例えば布の色であり、何千もの色がある場合、これらをRGBヘックスコードで表現できる。このようなデータに接する機会はほとんどないかもしれないが、直感的に質的変数だと思っても、量的変数として表現できる可能性があることを念頭に置く必要がある。

ジェンダー

データにジェンダーgenderというカテゴリーが登場することもあるが、あなたが政治的正しさpolitical correctnessに共感するか、うんざりするかにかかわらず、データがそう提供されているならば、まずはそのまま受け入れる必要がある。

  • これは本当の話だ。上で性別の例として挙げたように、ジェンダーが$0,1,2,3, \cdots$でエンコーディングされたデータがあり、ジェンダー問題に全く関心がなかったある先輩が、「これ、ジェンダーで2と3は何?」と戸惑っていたのを見たことがある。アメリカ社会で調査されたデータでは、よくあることだ。

ポイントは、このようなことが起こらないように、ジェンダー問題に関心を持って勉強することではなく、特定のドメインdomainに関する知識が不足している場合は、直感に頼ってデータを検討しないことである。

なぜ私たちはこれを知

る必要があるのか?

これらは非常に簡単で単純なことであるため、私たちはこれらを正確に区別し理解することができなければならない。ここでの私たちとは、統計学を応用する研究者を含め、統計学専攻者や、他の分野にバックグラウンドを持ちながらもデータサイエンスに従事する可能性のある人々を指す。

このように私たちが説明を探し、勉強し、課題をこなし、発表に慣れていく間に、皆さんの同僚たちはそれぞれ社会に適した何かをしていたであろう。残念ながら、それらの仕事は多くの場合大変だったため、私たちほどデータに精通していない可能性が高い。

彼らはデータに無関心であったり、無知であったりするため、ここで述べられた注意事項を守らず、これらのばかげたミスを犯している可能性がある。そして、それらについて疑わない一般の人々を想像してみよう。あなたの上司bossも例外ではない。

私たちはそれを防がなければならない。


  1. Mendenhall. (2012). 『確率と統計の入門』(13版): p10. ↩︎