回帰分析


 回帰分析はある変数から別の変数を予測するために用いる検定です。相関係数とは異なり,回帰式で2つの変数の関係を表します。回帰分析の特徴や使用方法について,SPSSでの実践例も含めてわかりやすく説明します。

目次

  1. 直線回帰分析
    用途:パラメトリックな手法.直線的な関係にあるある変数からある変数を予測する式を作成
  2. 曲線回帰分析
    用途:パラメトリックな手法.曲線的な関係にあるある変数からある変数を予測する式を作成
  3. まとめ

直線回帰分析

どんな時に使うか

 集めたデータのある変数からある変数を予測する式を知りたい場合にこの検定を使います。この検定は2つの変数が下の図のように直線的な関係にある時に適用になります。


データの尺度や分布 

 正規分布に従い,かつ比率か間隔尺度のデータ(例外として順序尺度のデータを用いることもあります)。つまりパラメトリックな手法です。2変数以上のデータである必要があります。

 検定の指標 

 回帰式,決定係数,有意性(値)を用います。決定係数はその回帰式がどのくらいの予測精度であるかを示す指標です。決定係数は回帰式で求めた予測値と実際の値との差(残差)の程度を表すものです。

実際の使い方(SPSSでの実践例)

 B市A施設の男性職員の体重と中性脂肪のデータが手元にあるとします。体重から中性脂肪を予測できるか直線回帰分析を行なってみましょう。

  1. データをSPSSに読み込む。体重と中性脂肪のデータを2列に並べる。
  2. メニューの「分析 → 回帰 (R) → 線形 (L)... を選択。


  3. 予測したい変数を従属変数に取り込む(この場合中性脂肪)。
  4. 予測に用いる変数を独立変数に取り込む(この場合体重)。
  5. 統計量 (S) を押して,推定値 (E) ,信頼区間 (N) ,モデルの適合度 (M) にチェックをつける。
  6. 「続行」を押して統計量を閉じたら,「OK」を押して検定開始。


  7. 結果のダイアログがでたらまず分散分析の「有意確率」で,p < 0.05(あるいは < 0.01)を満たしているかを確認。
  8. 上記を満たしていれば,係数で「有意確率」で,p < 0.05(あるいは < 0.01)を満たしているかを確認。
  9. 次に,非標準化係数Bの係数で回帰式を作る(中性脂肪 = -14.588 + 1.556 × 体重)。
  10. モデルの要約でRとR2乗を確認する。


 今回の結果だと有意な回帰式ではありましたが,決定係数が「.117」とでたので,実用的な回帰式ではないことが分かりました。一般的にR2乗は1に近ければ近いほど回帰式として良好で,少なくとも0.5以上が望ましいと言われています。

曲線回帰分析

どんな時に使うか

 集めたデータのある変数からある変数を予測する式を知りたい場合にこの検定を使います。この検定は2つの変数が下の図のように曲線的な関係にある時に適用になります。


データの尺度や分布 

 正規分布に従い,かつ比率か間隔尺度のデータ(例外として順序尺度のデータを用いることもあります)。つまりパラメトリックな手法です.2変数以上のデータである必要があります。

 検定の指標 

 回帰式,決定係数,有意性(値)を用います。決定係数はその回帰式がどのくらいの予測精度であるかを示す指標です。決定係数は回帰式で求めた予測値と実際の値との差(残差)の程度を表すものです。

    実際の使い方(SPSSでの実践例)

     B市A施設の男性職員の体重と中性脂肪のデータが手元にあるとします。体重から中性脂肪を予測できるか曲線回帰分析を行なってみましょう。

    1. データをSPSSに読み込む。体重と中性脂肪のデータを2列に並べる。
    2. メニューの「分析 → 回帰 (R) → 曲線推定 (C)... を選択。


    3. 予測したい変数を従属変数に取り込む(この場合中性脂肪)。
    4. 予測に用いる変数を独立変数に取り込む(この場合体重)。
    5. モデルの,一次 (L) ,2次 (Q) ,対数にチェックをつける。
    6. 「OK」を押して検定開始。


    7. 結果のダイアログがでたらまずモデルの要約で「有意確率」で,p < 0.05(あるいは < 0.01)を満たしているかを確認。
    8. 上記を満たしていれば,パラメーター推定値の係数で回帰式を作る(下図を参照)。
    9. モデルの要約でR2乗を確認する。



     今回の結果だと有意な回帰式ではありましたが,決定係数が対数曲線で「.116」,2次曲線で「.118」とでたので,実用的な回帰式ではないことが分かりました。線形(一次)とほとんど同じ結果でしたね。体重から中性脂肪を予測することは困難だということが結論できます。

    まとめ

     今回,直線回帰と曲線回帰の2種類の回帰分析をSPSSの使い方を含めて紹介しました。いずれも,一つの変数からもう一つの変数を予測する式を作るために用います。しかし,2つの変数以外の条件が全て同一である,という前提のもとこの予測式は活用できます。そのため,B地区での予測式が,D地区で活用できるわけではありません。回帰分析の限界を知った上で活用して下さい。

    その他の統計学的検定一覧