Statistics/t-test

t 検定

Student's t-test

概要

t検定（t-test）とは、統計量が t分布に従うことを前提とするパラメトリック検定*1の一種で、一般に２組の標本について、平均値に有意差があるかどうかを調べる際に用いられます。

前提

t検定は前提からの逸脱に対して比較的堅牢であるとされますが、次のことを前提としています。

標本データが母集団からランダムに抽出されている（無作為抽出）
分布が（ほぼ）正規分布に従うこと
等分散性があること（各グループのデータの散布度が類似）

帰無仮説・対立仮説

２群それぞれの平均を μ1, μ2 とした場合・・

帰無仮説 H0：μ1 ＝ μ2 （μ1 －μ2 ＝ 0）　平均 μ1 と μ2 に差がない
対立仮説 H1：μ1 ≠ μ2（μ1 －μ2 ≠ 0 ）

データ数について

t検定は、少ないサンプル数であっても有意差があるかどうかを判断できるツールとして開発されているため、1つの群につき 6件～10件のデータでも統計処理することが可能です。

用語解説

要因と水準

分散分析では要因や水準（群）が複数あることを前提に比較を行いますが、t検定は、１つの注目要因について２群の平均値の違いを検定するもので、１要因・２水準で行うのが前提です。

t 検定の種類

一群のｔ検定
母集団の平均値 μ が特定の値 μ0 と等しいか否かを検定する際に使用します。

対応のある２群の平均値の差の検定
例えば、血圧を下げる新薬の効果測定のために、同一被験者群に対して、実際の投薬を行なった日と偽薬を投薬した日をそれぞれ第１群、第２群とすることで、血圧降下量の平均値比較する場合。
＊サンプルサイズ（被験者数）は同一であることが前提です。

対応のない２群の平均値の差の検定
例えば、同様の新薬の効果を確認するために、異なる被験者グループに対して、一方には実際に投薬を行い、他方には偽薬を投薬して、投薬後の血圧降下量の平均値を比較する場合。これは２群間で被験者の健康状態等に偏りがないことが必須で、少人数の実験では、本当に当該医薬品の効果なのか、それとも被験者の持つ別の要因が関係しているのかは見極めにくいという問題があります。
＊サンプルサイズ（被験者数）は異なっても構いません。

Python 等の環境で t検定を行う場合、一般に「2 つのデータ間に対応がなく、正規性および等分散性が仮定できる」ことを前提に「Student の t検定」が用いられますが、２つの群に等分散性が仮定できない場合は、Welchの方法を採用します（以下のプログラムサンプルに具体的な事例を記載しています）。

サンプルプログラム

CSV形式のサンプルデータを読み込んで t検定を行うサンプルです。
https://github.com/koichi-inoue/DataScience/blob/main/t_test.ipynb
正規乱数で２群のデータを作って t検定を行うサンプルです。
https://github.com/koichi-inoue/DataScience/blob/main/t_test_random.ipynb

PAGES

GUIDE

DATA

*1 パラメトリック検定とは、母集団分布に特定の分布を仮定した検定のことです。

Last-modified: 2023-08-30 (水) 17:16:50