Pearsonのカイ二乗検定


Charcot(@StudyCH)です。

今回ご紹介するPearson(ピアソン)のカイ二乗(χ2)検定は、χ2独立性の検定の一つです。χ2分布を用いた検定方法で、ノンパラメトリックな手法に分類されます。ここではPearsonのカイ二乗検定の特徴をSPSSを使った実践例も含めてわかりやすく説明します。


どんな時にこの検定を使うか 

ある集団のある変数が出現する頻度に偏りがあるか知りたい時にPearson(ピアソン)のカイ二乗検定を用います。例えば、K病院に入院していた脳卒中患者さんの自宅退院と自宅退院以外の割合が男女で異なるかどうかを後方視的に調べたい時などにこの検定を使います。

使用できるデータの尺度や分布

尺度水準が名義尺度のデータ(例外として段階数の少ない順序尺度のデータ)に用います。名義尺度のデータを用いるので分布は気にする必要はありません。つまり、この検定はノンパラメトリックな手法です。

従属データに使用できない!
 同じ対象に対して条件を変えて得たデータにカイ二乗検定を使うことができません。例えば、脳卒中患者を対象に介入前後で歩行獲得したか否か(0か1なので名義尺度のデータ)を知りたい時にはカイ二乗検定ではなく、McNemar(マクネマー)検定を使います。SPSSではカイ二乗検定と同じ手順で検定可能です。実際の使用例の「統計量の指定」ダイアログにMcNemarがあるのでチェックをつけて下さい。

検定結果の指標

統計結果の指標には「値」を用います。95%信頼区間の場合は p < 0.05 で、99%信頼区間の場合は p < 0.01 で有意差があると判断できます。頻度の大小については「調整済み残差」で判断します。


実際の使用例(SPSSの使い方)

実際のSPSSによる解析方法を模擬データを使って説明します。今回は、K病院に入院していた脳卒中患者さんの性別ごとの自宅退院と自宅退院以外の割合についてのデータが手元にあるとします。自宅退院と自宅退院以外の割合が男女間で偏っているか(差があるか)を実際に検定します。

  1. データをSPSSに読み込みます。この時、性別と転帰先のデータを2列に並べて入力して下さい。
  2. メニューの「分析 → 記述統計 (E) → クロス集計表 (C)…」を選択します(下図)。


  3. 「性別」と「転帰先」を「↪」で「行 (O)」と「列 (C)」に移動させます(下図①)。
  4. 「統計量 (S)...」をクリックすると、「統計量の指定」ダイアログがでてきますので「カイ2乗」、「分割係数 (O)」、「PhiおよびCramer V(P)」にチェックをつけます(下図②)。
  5. 「続行」で「統計量の指定」ダイアログを閉じたら、「セル (E)...」ボタンを押して「セル表示の設定」ダイアログを出して、「調整済みの標準化 (A)」にチェックをつけます(下図③)。
  6. 「続行」で「セル表示の設定」ダイアログを閉じたら、「OK」ボタンを押せば検定が開始されます。


  7. 結果のダイアログがでたら「カイ2乗検定」の下参照a.をみて、期待度数が5未満の%比を確認します(下図①)。
  8. 期待度数が5未満が20%を越えていなければ、「Pearsonのカイ2乗」の「漸近有意確立(両側)」で p < 0.05(あるいは < 0.01)を満たしているかを確認(下図②)。
  9. 期待度数が5未満が20%を越えていれば、「Fisherの直接法」の「正確な有意確立(両側)」で p < 0.05(あるいは < 0.01)を満たしているかを確認(下図③)。
  10. 頻度の大小については「〇〇と〇〇のクロス表」(ここでは性別と転帰先のクロス表)の「調整済み残差」を確認します。この値が1.96以上の時は、頻度が多いと判断できて、−1.96以下の時は頻度が少ないと判断できます。(下図④)



今回の結果だと期待度数が5未満は「0.0%」とでたのでPearson(ピアソン)のカイ2乗が適用できます。しかし、漸近有意確立は「.101」で p < 0.05 を満たしていませんでした。調整済み残差も1.6と1.96を下回っていますね。K病院に入院していた脳卒中患者さんの性別ごとの自宅退院と自宅退院以外の割合に偏りはない(差はない)と結論できます。

今回は、期待度数が5未満が20%を越えなかったので、Fisherの直接法を使うことはありませんでした。Fisherの直接法はFisherの正確確立検定のことで、Pearsonのカイ二乗検定とは別の検定になります。この検定の詳細は「Fisherの正確確率検定」を参照して下さい。


まとめ

Peason(ピアソン)のカイ二乗検定は、名義尺度のデータで頻度の偏りを調べたい時に用います。臨床研究では、ランダム化比較試験では介入群と対照群の属性に、コホート研究では暴露群と対照群の属性に差がないかどうかを調べる目的で頻繁に使われます(属性とは性別や年齢など、その集団の特徴を表すものです)。

その他の統計学的検定一覧