統計データの尺度水準


 研究をはじめて集めたデータを統計解析しよう!と思った時に一つの壁にぶつかります。統計データの処理や解析はデータの尺度水準に応じて用いれるものと用いれないものがあるからです。あなたの集めたデータはどんな尺度なんでしょうか。ここでは統計データの尺度水準についてわかりやすく説明します。

名義尺度

 特定の分類,例えば性別(男性,女性)や場所(A市,B市)に数字を割り振ったデータの尺度水準は名義尺度 nominal scale と呼ばれます。例えば性別の場合,男性を1,女性を0と割り振ります。もともとが性別を示したものなので,1と0が異なるものであることは表現できますが,割り振られた数字を引いたり足したりすることに意味はありません。ちなみに性別や場所などの分類は,カテゴリー category と表現されるので,名義尺度のデータをカテゴリーデータ category data と呼ぶことがあります。この尺度のデータで使用できる統計解析にはカイ二乗検定などがあります。

順序尺度

 割り振られた数字で大小関係(大きいか,小さいか,等しいか)しか判断できないデータの尺度水準は順序尺度 ordinal scale と呼ばれます。医療で用いられる評価指標で得られたデータの多くは,この順序尺度になります。例えば modified rankin scale, mRS は医療現場で国際的に良く用いられる日常生活指標ですが,患者さんの身体状況が良くなったか悪くなったかを表現することができても,スコア1から3になったからといって3倍悪くなったことを表現できません。つまり,この尺度のデータも引いたり足したりすることに意味がないのです。この尺度のデータで使用できる統計解析にはスピアマンの順位相関係数などがあります。

間隔尺度

 測定対象の量の差を,数値の差として表現できるデータの尺度水準は間隔尺度 interval scale と呼ばれます。例えば温度,日付,年齢が間隔尺度のデータとなります。2歳と4歳の差は2歳ですし,88歳と90歳の差もまた同じ2歳です。この2歳は2年という同じ時間(あれっと思った人は深く考えないで流して下さい…)として表現することができるので年齢を足したり引いたりすることに意味があります。つまり間隔尺度のデータは加減(足す,引く)の演算ができるということです。このデータで使用できる統計解析にはピアソンの相関係数,t検定,分散分析などがあります。


比率尺度

 比率尺度 ratio scale は比例尺度とも呼ばれ,間隔尺度と違って原点(0)が絶対的に定まっているデータの尺度水準です。例えば,ものの長さ,重さや時間などが比率尺度のデータとなります。この尺度のデータは,足したり引いたりに加えて,掛けたり割ったりすることができます。つまり四則演算(加減乗除)が可能なのです。この尺度のデータでは全ての統計解析を用いることができます。

データの尺度水準と使用できる代表値

 上記の尺度水準のデータで使用できる代表値を表にしました。名義尺度や順序尺度は平均を求めることに意味はありません。また,名義尺度は中央値,データを並べた時に中央に位置する値を求めることにも意味がありません。そもそも大小関係が成立しないため順番に並べることができないデータですので当然です。最頻値,最も頻繁に出現する値は全ての尺度のデータで用いることができます。

代表値
名義尺度
順序尺度
間隔尺度
比率尺度
平均値
中央値
最頻値

まとめ

 名義や順序尺度のデータは質的データと呼ばれ,間隔や比率尺度のデータは量的データと呼ばれます。自分が扱うデータがどのような尺度水準なのかを考えることが研究の第一歩かもしれません。明らかにしたい疑問によっては,統計解析の課程で比率尺度のデータをカテゴリー化して名義尺度や順序尺度に置き換える必要性もあるでしょう。建設的にデータを扱えるようにしっかりと尺度水準について理解して下さい。