LogoMark.png

Statistics/t-test の変更点


#author("2024-11-21T19:48:28+09:00;2024-07-12T13:21:00+09:00","default:inoue.ko","inoue.ko")
#author("2024-11-21T19:50:19+09:00;2024-07-12T13:21:00+09:00","default:inoue.ko","inoue.ko")
*t 検定
Student's t-test
~

**はじめに
t検定(t-test)とは、統計量が __[[t分布>Statistics/T-Distribution]]__に従うことを前提とするパラメトリック検定((パラメトリック検定とは、母集団分布に特定の分布を仮定した検定のことです。))の一種で、一般に2組の標本について、その平均値に「統計的な有意差」があるかどうかを調べる際に用いられます。
~
~

**t 検定のパターン

***'''対応のある2群'''の平均値の差の検定
例えば、血圧を下げる新薬の効果測定のために、同一被験者群に対して、実際の投薬を行なった日と偽薬を投薬した日をそれぞれ第1群、第2群とすることで、血圧降下量の平均値比較する場合。
*サンプルサイズ(被験者数)は同一であることが前提です。
~

***'''対応のない2群'''の平均値の差の検定
例えば、同様の新薬の効果を確認するために、異なる被験者グループに対して、一方には実際に投薬を行い、他方には偽薬を投薬して、投薬後の血圧降下量の平均値を比較する場合。これは2群間で被験者の健康状態等に偏りがないことが必須で、少人数の実験では、本当に当該医薬品の効果なのか、それとも被験者の持つ別の要因が関係しているのかは見極めにくいという問題があります。
*サンプルサイズ(被験者数)は異なっても構いません。
~

***参考:一群のt検定
母集団の平均値 μ が特定の値 μ0 と等しいか否かを検定する際に使用します。
~
~

**t検定の手法

***前提
t検定は前提からの逸脱に対して比較的堅牢であるとされますが、次のことを前提としています。
//-データ値は連続変数であること
-標本データが母集団からランダムに抽出されている(無作為抽出)
-分布が(ほぼ)正規分布に従うこと
-等分散性があること(各グループのデータの散布度が類似)
~

***帰無仮説・対立仮説
2群それぞれの母集団平均を &mathjax(\bar{u_1});,  &mathjax(\bar{u_2}); とした場合・・
-帰無仮説 HSUB{0};:&mathjax(\bar{u_1} = \bar{u_2}); (&mathjax(\bar{u_1} - \bar{u_2} = 0); )&small(2群の平均に差がない);
-対立仮説 HSUB{1};:&mathjax(\bar{u_1} \neq \bar{u_2}); (&mathjax(\bar{u_1} - \bar{u_2} \neq 0); )&small(2群の平均に差がある);
~

***統計量 t とは
2群を比較する t検定における統計量には、__[[t分布>Statistics/T-Distribution]]__を表す以下の式を応用します。

#mathjax( t = \frac{\bar{x} -μ}{ \frac{s}{\sqrt{n}}} )

上の式において、標本平均 &mathjax(\bar{x});の部分を2群の標本平均の差 &mathjax(\bar{x_1} - \bar{x_2}); 、母平均 &mathjax(μ); の部分を2群の母集団平均の差 &mathjax(\bar{u_1} - \bar{u_2}  );(これは帰無仮説で 0 )  と位置付けて統計量 t を算出します。

2つの群の母集団が同一であれば、標本平均の差 &mathjax(\bar{x_1} - \bar{x_2});は 0 に近づく(t値も 0 に近づく)はずですが、逆にそれが 0 から遠ざかる場合( t値が 0から遠ざかる場合)は、帰無仮説が疑わしい・・ということになります。その遠ざかり方が、確率的に 5%以下の(つまり、めったにおこらない)現象である場合、帰無仮説は棄却されて「2群には有意な差がある」という判定となります。
~

***「統計的に有意な差」を視覚的に説明すると・・
平均値の差が同じでも、ばらつき(分散・標準偏差)が異なると、その差が統計的に有意なのか否かが異なります。視覚的なイメージで説明してみましょう。

#image(distribution.jpg)

上の3つのケースでは、いずれも平均の差は同じです。しかし、ばらつきが大きい左のグラフでは2つのサンプルが大きく重なり合っているので集団間の差は偶然である可能性があります。一方、右のグラフのようにばらつきが小さい場合は集団の性質が明らかに異なる・・と言えそうです。一般に、ばらつきが小さいほど、t 値の大きさが大きく、結果 p 値が小さくなります。つまり「差がないと仮定した場合に、めったにおこらない現象が生じている」ということになり、帰無仮説が棄却される = 統計的に有意な差がある・・と判定されます。
上の3つのケースでは、いずれも平均の差は同じです。しかし、ばらつきが大きい左のグラフでは2つのサンプルが大きく重なり合っているので、その差は偶然(誤差の範囲内)である可能性があります。一方、右のグラフのようにばらつきが小さい場合は集団の性質が明らかに異なると言えそうです。一般に、ばらつきが小さいほど、t 値の値が大きく、結果 p 値が小さくなります。つまり「差がないと仮定した場合に、めったにおこらない現象が生じている」ということになり、帰無仮説が棄却される = 統計的に有意な差がある・・と判定されます。
~

***付記:t検定におけるデータ数について
t検定は、少ないサンプル数であっても有意差があるかどうかを判断できるツールとして開発されているため、1つの群につき 6件~10件のデータでも統計処理することが可能です。
~
~


**サンプルプログラム
Python 等の環境で t検定を行う場合、一般に「2 つのデータ間に対応がなく、正規性および等分散性が仮定できる」ことを前提に「Student の t検定」が用いられます((2つの群に等分散性が仮定できない場合は、Welchの方法を採用します。))。(以下のプログラムサンプルに具体的な事例を記載しています)。  

-CSV形式のサンプルデータを読み込んで t検定を行うサンプルです。
https://github.com/koichi-inoue/DataScience/blob/main/t_test.ipynb
-正規乱数で2群のデータを作って t検定を行うサンプルです。
https://github.com/koichi-inoue/DataScience/blob/main/t_test_random.ipynb
~
~
~