LogoMark.png

Statistics/HypothesisTesting

仮説検定

Statistical Hypothesis Testing

仮説検定とは、母集団分布の母数に関する仮説を標本から検証する統計学的方法の一つで、例えば「2つのグループの平均値に差がある」といった仮説を検証する際に用いられます。

仮説検定の概要

例えば、新型の製品と従来型の製品を比較してデザインの良し悪しを評価する場合、「ユーザーの評価に違いがあるのか」ということを統計的に(科学的に)証明することが求められます。デザイナーは当然「新型の評価が高い」という結果が出て欲しいし、またそれを統計的に証明できればうれしいわけです。

すべてのユーザーに「どっちがいい?」と尋ねることができれば確実ですが、大量に生産されて市場に出回る商品では、そんな調査はできません。実際には何人かの被験者に協力してもらって「母集団の反応を推定する」ことになります。

ならば「新型の評価平均と従来型の評価平均を比較すればいいではないか」。話はとても簡単に思えるのですが、それだけでは「統計的に両者に差がある」とは言えないのです(実際にはそれで通用するケースもありますが、「たまたまそうなっただけではないか」と言われたときに、返す言葉がなくなります)。

サンプル(被験者)の平均値がどの程度母集団(例えば日本国民全員)の傾向を物語ることができるのか。本当に差があるのか、それとも誤差としてありえる範囲の値なのか、これを確率の問題として、統計的に処理する必要があるのです。

帰無仮説

仮説検定における重要なキーワードに「帰無仮説」があります。仮説検定では「新型は旧型に差はない」という逆の仮説を立てて話を進めます。はじめから否定(棄却)されるべきものとして仮説が設定されることから、その名を帰無仮説と言うわけです。一方、実際に示したい仮説を対立仮説と言います。

p値

次に、帰無仮説から想定される値と、実際の調査で得られた値が一致する確率を求めます。これを p値といいます。

この p値が予め決めた基準(有意水準といって 5% か 1% が一般的)よりも小さい値であれば、「帰無仮説のもとでは、めったに起こらないことが起きた」と考えて、仮説を棄却(否定)します。つまり「新型と旧型には差がある」と結論するわけです。がんばったデザイナーには嬉しい結果です。かなりまわりくどいやりかたですが、これが仮説検定の考え方です。

一方、この確率が著しく小さいと言えない場合は、帰無仮説は棄却できず、結論を保留します。気をつけたいのは、この結果が「新型と旧型が同じ」ということを意味するものではないということです。「有意差がない」=「等しい」ではありません。あくまで「差があるとは言えない」という程度。同じであるということを証明するのは、実は非常に難しいのです(後述:実証と反証)。

以上、流れをまとめると・・

母集団、帰無仮説、有意水準など、難しい言葉が出てくるのですが、これらは重要なキーワードになるので、十分理解してから先に進んでください。

余談ですが
新商品の開発などでは、研究当事者は、有意な差が出で仮説が棄却されることを期待しています。「有意な差は見られませんでした」というのは失敗を意味します。ここに様々な不正が入り込むスキがあります。であるがゆえに、実験結果を何らかのPRに使用する場合や、論文を書く場合は、その実験・調査が、誰が見ても不正のないものであること、また誰が、同じ実験・調査を行っても(追試)同じ結果が出ることを確かめられるように、実験の前提条件や、実験の方法を詳細に記述する必要があります。

付記:「検出力(Power)」について

統計的な有意差検定には以下の表のように 2 種類の誤りの可能性があります。このとき、表の右下 1-β のことを「検出力(検定力)」と言います。

 差がないと判断
(帰無仮説を採択)
差があると判断
(帰無仮説を棄却)
本当は差がない正しい判断(1-α)第 1 種の誤り(α)
本当は差がある第 2 種の誤り(β)正しい判断(1-β):[ 検出力 ]

統計的仮説検定では、検定統計量の算出における手続き上、サンプルサイズが大きくなると P値は小さくなって「有意差あり」となる傾向があります。

そのため「データサイズが大きいのは良くない」といった話を耳にすることもありますが、これは、データサイズが大きい場合には p値を強調して有意差ありなしを議論するよりも、実際にどれぐらい平均値が異なるか・・ということの方を強調して議論した方がよい・・という話かと*1

統計的仮説検定は、そもそも母集団すべてのデータを収集することが不可能であるから、少ないサンプルサイズで母集団の分布を推定しているわけで、サンプルサイズが小さい場合にこそ、その利用価値があるのですが、実際に差がある場合は、サンプルサイズが大きい方がより検出力が上がる(逆に言うと、サンプルサイズが小さいと「第2種の誤り:実際には差があるのに差がないと判定される」のの確率が上がる)ということで、データ数が多いこと自体が悪いわけではないと考えます。




検定手法

統計的検定手法には、データが特定の確率分布に従うことを仮定するパラメトリックな手法と、それを前提としないノンパラメトリックな手法とがあります。代表的なものに以下のようなものがあります。

パラメトリック検定では、以下3つの条件を満たしている必要があります。

以下、論文等でよく用いられる検定手法について概説します。

t検定( Student's t-test>t-test )

検定統計量が帰無仮説の下でt分布に従うことを仮定して行う統計的検定(日本工業規格)。母集団が正規分布に従うことを仮定したパラメトリック検定の一種で、2つの群の平均に有意差があるかどうかの検定に用いられます。

F 検定(F test)

検定統計量が,帰無仮説の下でF分布に従うことを仮定して行う統計的検定(日本工業規格)。統計量F とは、2つの群の標準偏差の比で、両群とも正規分布に従う場合には、それがF 分布に従います。これを用いてF値が片側有意水準内に入るかどうかを検定するのがF検定です。

分散分析( ANOVA:analysis of variance )

比較したいグループ(水準)が3つ以上の場合、変数の各水準の母平均に違いがあるかどうかを「分散」の大きさの違いで検定するのが分散分析です。

相関分析

以下の前提で、相関係数の検定を行うものです。

Pearsonの相関係数、Kendallのタウ、Spearmanの相関係数と3つの種類がありますが、Pearsonの相関係数はデータが正規分布であることを前提としたパラメトリック検定で、Kendallのタウや Spearman の相関係数はデータの順位から分析したノンパラメトリック検定です。

カイ二乗検定

カイ二乗検定( \(χ^2\) 検定)は、名義尺度データに対する検定として用いられるもので、「適合度の検定」や「独立性の検定」に用いられます。

PAGES

GUIDE

DATA


*1 サンプルサイズが小さく p値が大きく出ても「差があるとはいえない」というだけで「差がない」と言っているわけではありません。実際に差があるのであれば、サンプルサイズを大きくすれば、p値は小さくなって「有意差あり」になるし、実際に差がないのであれば、サンプルサイズを上げてもp値は下がらないかと思います。
Last-modified: 2023-03-08 (水) 15:02:07