LogoMark.png

Statistics/HypothesisTesting のバックアップ(No.3)


仮説検定

Statistical Hypothesis Testing

仮説検定とは、母集団分布の母数に関する仮説を標本から検証する統計学的方法の一つで、例えば「2つのグループの平均値に差がある」といった仮説を検証する際に用いられます。

仮説検定の概要

例えば、新型の製品と従来型の製品を比較してデザインの良し悪しを評価する場合、「ユーザーの評価に違いがあるのか」ということを統計的に(科学的に)証明することが求められます。デザイナーは当然「新型の評価が高い」という結果が出て欲しいし、またそれを統計的に証明できればうれしいわけです。

すべてのユーザーに「どっちがいい?」と尋ねることができれば確実ですが、大量に生産されて市場に出回る商品では、そんな調査はできません。実際には何人かの被験者に協力してもらって「母集団の反応を推定する」ことになります。

ならば「新型の評価平均と従来型の評価平均を比較すればいいではないか」。話はとても簡単に思えるのですが、実はそれだけでは、科学的に両者に差がある・・とは言えないのです。ここが直感的には難しい。

サンプル(被験者)の平均値がどの程度母集団(例えば日本国民全員)の傾向を物語ることができるのか。本当に差があるのか、それとも誤差としてありえる範囲の値なのか、これを確率の問題として、統計的に処理する必要があるのです。

帰無仮説

仮説検定における重要なキーワードに「帰無仮説」があります。仮説検定では「新型は旧型に差はない」という逆の仮説を立てて話を進めます。はじめから否定(棄却)されるべきものとして仮説が設定されることから、その名を帰無仮説と言うわけです。一方、実際に示したい仮説を対立仮説と言います。

p値

次に、帰無仮説から想定される値と、実際の調査で得られた値が一致する確率を求めます。これを p値といいます。

この p値が予め決めた基準(有意水準といって 5% か 1% が一般的)よりも小さい値であれば、「帰無仮説のもとでは、めったに起こらないことが起きた」と考えて、仮説を棄却(否定)します。つまり「新型と旧型には差がある」と結論するわけです。がんばったデザイナーには嬉しい結果です。かなりまわりくどいやりかたですが、これが仮説検定の考え方です。

一方、この確率が著しく小さいと言えない場合は、帰無仮説は棄却できず、結論を保留します。気をつけたいのは、この結果が「新型と旧型が同じ」ということを意味するものではないということです。「有意差がない」=「等しい」ではありません。あくまで「差があるとは言えない」という程度。同じであるということを証明するのは、実は非常に難しいのです(後述:実証と反証)。

以上、流れをまとめると・・

母集団、帰無仮説、有意水準など、難しい言葉が出てくるのですが、これらは重要なキーワードになるので、十分理解してから先に進んでください。

余談ですが
新商品の開発などでは、研究当事者は、有意な差が出で仮説が棄却されることを期待しています。「有意な差は見られませんでした」というのは失敗を意味します。ここに様々な不正が入り込むスキがあります。であるがゆえに、実験結果を何らかのPRに使用する場合や、論文を書く場合は、その実験・調査が、誰が見ても不正のないものであること、また誰が、同じ実験・調査を行っても(追試)同じ結果が出ることを確かめられるように、実験の前提条件や、実験の方法を詳細に記述する必要があります。



検定手法

統計的検定手法には、データが特定の確率分布に従うことを仮定するパラメトリックな手法と、それを前提としないノンパラメトリックな手法とがあります。代表的なものに以下のようなものがあります。

パラメトリック検定では、以下3つの条件を満たしている必要があります。

以下、論文等でよく用いられる検定手法について概説します。

t検定( Student's t-test>t-test )

検定統計量が帰無仮説の下でt分布に従うことを仮定して行う統計的検定(日本工業規格)。母集団が正規分布に従うことを仮定したパラメトリック検定の一種で、2つの群の平均に有意差があるかどうかの検定に用いられます。

F 検定(F test)

検定統計量が,帰無仮説の下でF分布に従うことを仮定して行う統計的検定(日本工業規格)。統計量F とは、2つの群の標準偏差の比で、両群とも正規分布に従う場合には、それがF 分布に従います。これを用いてF値が片側有意水準内に入るかどうかを検定するのがF検定です。

相関分析

以下の前提で、相関係数の検定を行うものです。

Pearsonの相関係数、Kendallのタウ、Spearmanの相関係数と3つの種類がありますが、Pearsonの相関係数はデータが正規分布であることを前提としたパラメトリック検定で、Kendallのタウや Spearman の相関係数はデータの順位から分析したノンパラメトリック検定です。

カイ二乗検定

カイ二乗検定( \(χ^2\) 検定)は、名義尺度データに対する検定として用いられるもので、「適合度の検定」や「独立性の検定」に用いられます。

分散分析( ANOVA:analysis of variance )

比較したいグループ(水準)が3つ以上の場合、変数の各水準の母平均に違いがあるかどうかを「分散」の大きさの違いで検定するのが分散分析です。