Shapiro-Wilk検定（正規性の検定）

Charcot（＠StudyCH）です。今回ご紹介するShapiro-Wilk（シャピロ-ウィルク）検定は、正規性の検定の一つで、データが正規分布しているかを判断するために用います。ここではShapiro-Wilk検定の特徴をSPSSを使った実践例も含めてわかりやすく説明します。

どんな時に使うか

ある変数が正規分布しているか否かを知りたい時にShapiro-Wilk（シャピロ-ウィルク）検定を使います。そのデータが正規分布しているかは統計学において重要で、例えば様々な統計的検定や推定手法がその仮定を前提として行われます。ある変数が正規分布しているか（正規性）は、ヒストグラムを描いて釣鐘状の分布が得られるかを観察することでも判断できます（下図）。

上のヒストグラムはある施設に勤務する男性職員の身長のデータです。中央が盛り上がった、釣鐘状の形をしています。これを見るだけで正規分布していることは分かるのですが、もしヒストグラムを描いて判断できない場合にこの正規性の検定を行います。

使用できる尺度や分布

尺度水準が比率か間隔尺度（例外的に項目数の多い順序尺度）のデータを使用します。分布はこの検定で確かめるので、不明で大丈夫です。名義尺度や少数のカテゴリーを持つ順序尺度のデータにシャピロ-ウィルク検定が適していません。これらの尺度ではデータの順序や間隔が一定でないため、正規分布の仮定が成立しにくいためです。

検定結果の指標

統計結果の指標にはｐ値（p-value）を用います。p値は統計的検定で得られる指標の一つで、帰無仮説（null hypothesis）が正しいとした場合に、観測されたデータ、またはそれよりも極端なデータが得られる確率を示します。p値が小さいほど、帰無仮説のもとで観測された結果が起こることは稀であると考えられ、したがって帰無仮説に疑問を投げかける根拠となります。

95%信頼区間の場合は p < 0.05 で、99%信頼区間の場合は p < 0.01 で統計的有意だと判断できます。例えば、p値が0.03であった場合、帰無仮説が正しいと仮定したときに、観測された結果が偶然によって生じる確率は3%であると解釈できます。

p値が0.05未満であれば、その結果は偶然よりも系統的な効果によるものと考えられるため、帰無仮説を棄却します。p値が大きい場合（例えば0.05以上）、帰無仮説を棄却するには十分な証拠がないと解釈されるが、これは帰無仮説が真であることを証明するものではありません。データが帰無仮説と矛盾しないということを意味することに注意してください。

実際の使用例（SPSSの使い方）

実際のSPSSによる解析方法を模擬データを使って説明します。今回は、ある施設に勤務する男性職員の身長のデータが手元にあるとします。このデータは上のヒストグラムと同じデータです。このデータが正規分布しているか否かを実際に検定してみましょう。

この例では帰無仮説と対立仮説を以下のように設定します。

帰無仮説 (H0) ：データが正規分布に従う

対立仮説 (H1) ：データが正規分布に従わない

データをSPSSに読み込みます。
メニューの「分析 → 記述統計 (E) → 探索的 (E)…」を選択します（下図）。

「身長」を「↪」で「従属変数 (D)」に移動させます（下図①）。
「作図 (T)...」をクリックすると、「作図」ダイアログがでてきますので、「正規性の検定とプロット (O)」にチェックをつけて下さい（下図②）。
「続行」で「作図」ダイアログを閉じたら（下図③）、「OK」ボタンを押せば検定が開始されます（下図④）。

結果のダイアログがでたら「Shapiro-Wilk」の「有意確率」をみて、 p < 0.05（あるいは < 0.01）を満たしているかを確認します（下図）。

今回の結果では、「有意確率」は「.059」なので帰無仮説が採択されました。このデータは正規分布に従わないとはいえない、つまり正規分布に従うと判断できました。

少しややこしいのですが、p < 0.05 であった場合は「正規分布に従わない」、p ≧ 0.05 であった場合は「正規分布に従う」となるので間違わないようにして下さい。

代わりとなる検定方法

シャピロ-ウィルク検定はサンプルサイズが小さい場合に最も適しているとされる正規性の検定です。しかし、サンプルサイズが大きくなると、他の検定方法が推奨されることがあります。以下に、シャピロ-ウィルク検定の代替となる正規性検定について簡単に説明します。

コルモゴロフ-スミルノフ検定 (Kolmogorov-Smirnov Test)

コルモゴロフ-スミルノフ検定（K-S検定）は、サンプルの累積分布関数と特定の分布（この場合は正規分布）の累積分布関数との間の最大差異を評価する検定です。K-S検定はサンプルサイズが大きい場合にも適用可能ですが、小さいサンプルサイズではパワーが低下する傾向があります。また、K-S検定はサンプルデータが完全に独立していることを前提としています。

アンダーソン-ダーリング検定 (Anderson-Darling Test)

アンダーソン-ダーリング検定は、データが特定の分布に従っているかどうかを評価するために使用されます。この検定は、データの分布の尾部に重点を置いており、特にデータの極端な値に敏感です。シャピロ-ウィルク検定と同様に、サンプルサイズが小さい場合に適していますが、アンダーソン-ダーリング検定はより広範な分布の形状に対して敏感です。

Lilliefors検定 (Lilliefors Test)

Lilliefors検定は、K-S検定の変種であり、正規分布のパラメータが未知の場合に特に有用です。この検定は、標本平均と標準偏差を使用して正規分布のパラメータを推定し、その推定された分布を使用してK-S検定を行います。

Jarque-Bera検定 (Jarque-Bera Test)

Jarque-Bera検定は、データの歪度と尖度が正規分布のそれとどの程度異なるかを評価する検定です。この検定は大きなサンプルサイズに適しており、特に経済学でよく使用されます。

D'Agostino's K^2検定 (D'Agostino's K-squared Test)

D'AgostinoのK^2検定は、歪度と尖度の統計量を組み合わせて、データが正規分布からどの程度逸脱しているかを評価します。この検定は中程度のサンプルサイズに適しています。

これらの検定は、それぞれ異なる特性と感度を持っており、使用する際にはデータの特性や検定の前提条件を考慮する必要があります。記事にこれらの検定法を追加する際には、それぞれの検定の適用条件、利点、制限についての説明を加えることが重要です。これにより、読者は自分のデータに最も適した正規性検定を選択するための情報を得ることができます。

まとめ

Shapiro-Wilk（シャピロ-ウィルク）検定は、比率や間隔尺度のデータが正規分布に従っているか否かを知りたい時に用いる正規性検定の一つです。そのデータが正規分布に従っているかどうかで、パラメトリックな手法かノンパラメトリックな手法のどちらを用いるかが決まります（詳しくは「パラメトリック検定とノンパラメトリック検定の違い」を参照して下さい）。この検定は、サンプルサイズが比較的小さい場合に用いることが多く、他にも正規性の検定方法が存在しますのでご自身のデータサイズに応じて検定を選択しましょう。

その他の統計学的検定一覧