研究と統計学の関係性:統計的仮説検定


こんにちは、Charcot(@StudyCH)です。

研究をすすめる上で必ず何かしらの仮説をたてます。そして、その仮説が正しいと証明するためには統計的に有意であるかどうかを確かめなくてはいけません。

統計的に仮説を証明することを統計的仮説検定 testing statistical hypothesis といって(有意性検定ともいいます)、研究者もその研究の利用者もその検定の意味や過程を理解しておかなくてはなりません。

この記事では統計的仮説検定について用語や流れをまとめます。

帰無仮説と対立仮説を設定する

統計的仮説検定は、最初に帰無仮説 null hypothesis (H0) と対立仮説 alternative hypothesis (H1) を立てることから始まります。

帰無仮説は「条件間に差がない」や「条件間に相関がない」などのように、できればその仮説を棄却できるように設定します。一方で対立仮説は帰無仮説と正反対の仮説で、上記の例で言えば「条件間に差がある」や「条件間に相関がある」ということになります。

通常、研究で何かを明らかにしたい時には、明らかにしたいことの正反対のことを帰無仮説に設定します。例えば、作業療法介入前後でADL能力に差があるのかということを知りたい場合、帰無仮説は「作業療法介入前後でADL能力に差がない」となります。

帰無仮説が統計的に有意に棄却されることで正反対の対立仮説を肯定して、仮説が正しかったことを確認するのです。

有意水準を定める

帰無仮説が棄却されると対立仮説が採択されて、ある条件間に「差がある」や「関連がある」と言えるわけですが、統計的検定はあくまで推定であるため100%の証明はできません。従って「どれくらいの確率で差がある」と説明することになります。この確率の程度を有意水準と level of significance と呼びます。

有意水準は慣例的に5%あるいは1%に設定します。この値には論文で良く使われるというだけで、特に根拠はありません。100回中1~5回のエラーは偶然としようということです。

5%や1%未満の範囲を棄却域 critical region といって、この範囲であれば帰無仮説を棄却できます。つまり、ある条件間に「差がないとはいえない」あるいは「関連がないとはいえない」ということになるのです。


差がないを完全に否定できない

仮説を設定して有意水準を定めたのなら、後はデータにあわせた検定手法を決めるだけです(検定手法の選択方法についてはまた別の機会に説明したいと思います)。

検定によって得られた統計量が棄却域にあるかをみてみましょう。帰無仮説がある一定の水準で棄却された場合、論理的に正反対の対立仮説は採択されて肯定されます。あなたの考えた仮説の証明です。

一方で、差がないを棄却したからといって、差がないことを完全に否定したことにならないので注意が必要です。対立仮説がどのくらいの確率で採択されたか分からないからです。このように帰無仮説を完全に肯定できないことが統計的仮説検定の落とし穴でもあるのです。

まとめ

統計的に仮説を検定する場合,対立する2つの仮説の片方を否定することでもう一方を採択するわけです。どの程度正しいかについては有意水準を設定することで説明します。一方で、差や関連がないことを完全に否定することは困難であることが分かりました。

統計解析ソフトウェアの普及により、ボタンひとつで終わってしまう検定ですが、その意味を理解して行うことで研究成果のアウトプット(論文化)が可能となります。われわれが統計学者になる必要はありませんが、概要はつかむようにしたいところです。

それでは皆さまの研究がうまくいくことを願って。

Charcot(@StudyCH)でした。All the best。