データの代表値と散布度について


 データの代表値や散布度は記述統計量 descriptive statistic と呼ばれ,そのデータの特徴を表現するために用いられます。論文抄読のさいにも,実際に統計解析を行う上でも必ず出てくる用語ですので一般的なものはしっかりと学習しておきましょう。

代表値 measure of central tendency

 代表値とはデータの中心を表す値として用いられます。いくつか種類があるのですが,データの尺度水準によって使用できるものと,できないものとがあるので注意して下さい。

平均 mean

 平均はn個のデータx1,x2,・・・,xnを全て足してnで割った値になります。平均には母平均 population mean と標本平均 sample mean とがあります。母平均は母集団の平均ですが,母集団は未知なので通常求めることはできません。標本平均は実際に研究課程で集めたデータの平均となります。平均値は間隔尺度と比率尺度のデータで求めることができます。

中央値 median

 あるデータを大小関係で並べた時にちょうど真ん中(中央)に位置する値をいいます。50パーセンタイル値とも呼ばれます。データが奇数個であれば問題ありませんが,偶数個の場合は中央の値が2つ存在します。このような場合はその2つを平均した値が中央値となります。中央値は間隔尺度,比率尺度に加えて順序尺度のデータでも求めることができます。

最頻値 mode

 最頻値は最も頻度が多い値をいいます。例えばリハビリテーション時の対応について{良い,ふつう,悪い}でアンケート調査したとします。結果は好きが12人,ふつうが39人,悪いが4人でした。この場合,ふつうがこのデータの最頻値となります。例に示したように,最頻値は名義尺度のデータで用いられます。

調整平均 trimmed mean

 n個のデータの最小のものk個と最大のものk個を除いた平均のことです。取り除くデータの割合を%で示して,α%調整平均といいます(α = k/n)。外れ値が含まれるデータに用いることが多い代表値となります。

散布度 measure of dispersion

 散布度はデータのばらつきを表す値です。代表値と同様にいくつかの種類がありますが,特定の代表値とセットで用いられるものが多いので注意して下さい。

分散 variance

 データのばらつきを示す指標です。一般的にはn個の標本と平均との差の2乗の和をn - 1で割った不偏分散 unbiased variance のことを指します。

標準偏差 standard deviation

 標準偏差は分散の正の平方根です。論文に掲載するさいは平均と単位を揃えるために分散ではなく標準偏差を用います。平均と対応したデータのばらつきを表す基本的な統計値といえます。

範囲 range

 データの最大値から最小値を引いた値です。文字どおりにデータの範囲を示す指標となります。

四方位偏差 quartile deviation

 少しややこしいですが,あるデータを大小関係で並べた時に1/4番目のデータを第1四分位数(25パーセンタイル点;Q1)といいます。また,3/4番目のデータを第3四分位数(75パーセンタイル点;Q3)といいます。四分位偏差とはQ3からQ1を引いた値を2で割った値となります。

四方位範囲

 四方位偏差を求める時にQ3からQ1を引いた値を四方位範囲といいます。この値は中央値と対応したばらつきの指標として用いられます。

変動係数 coefficient of variation

 変動係数とは標準偏差を平均で割って,百分率で表した値をいいます。単位が異なるデータどうしで変動の程度を比較する時に用いられます。

まとめ

 多くの医学研究では,平均と標準偏差,中央値と四分位範囲をセットで用いてデータの特徴を表すことが一般的です。とりわけ難しい計算で求めるものではないので式を覚えることおすすめします。少なくともこれらの統計値がどのような意味を持つのかを理解するようにしましょう。