Statistics/t-test の変更点 - OpenSquareJP

追加された行はこの色です。
削除された行はこの色です。
Statistics/t-test へ行く。
Statistics/t-test の差分を削除
#author("2024-11-21T19:50:19+09:00;2024-07-12T13:21:00+09:00","default:inoue.ko","inoue.ko")
#author("2025-05-29T19:11:39+09:00;2024-07-12T13:21:00+09:00","default:inoue.ko","inoue.ko")
*t 検定
Student's t-test
~

**はじめに
t検定（t-test）とは、統計量が __[[t分布>Statistics/T-Distribution]]__に従うことを前提とするパラメトリック検定((パラメトリック検定とは、母集団分布に特定の分布を仮定した検定のことです。))の一種で、一般に２組の標本について、その平均値に「統計的な有意差」があるかどうかを調べる際に用いられます。
~
~

**t 検定のパターン

***'''対応のある２群'''の平均値の差の検定
例えば、血圧を下げる新薬の効果測定のために、同一被験者群に対して、実際の投薬を行なった日と偽薬を投薬した日をそれぞれ第１群、第２群とすることで、血圧降下量の平均値比較する場合。
＊サンプルサイズ（被験者数）は同一であることが前提です。
~

***'''対応のない２群'''の平均値の差の検定
例えば、同様の新薬の効果を確認するために、異なる被験者グループに対して、一方には実際に投薬を行い、他方には偽薬を投薬して、投薬後の血圧降下量の平均値を比較する場合。これは２群間で被験者の健康状態等に偏りがないことが必須で、少人数の実験では、本当に当該医薬品の効果なのか、それとも被験者の持つ別の要因が関係しているのかは見極めにくいという問題があります。
＊サンプルサイズ（被験者数）は異なっても構いません。
~

***参考：一群のｔ検定
母集団の平均値 μ が特定の値 μ0 と等しいか否かを検定する際に使用します。
~
~

**t検定の手法

***前提
t検定は前提からの逸脱に対して比較的堅牢であるとされますが、次のことを前提としています。
//-データ値は連続変数であること
-標本データが母集団からランダムに抽出されている（無作為抽出）
-分布が（ほぼ）正規分布に従うこと
-等分散性があること（各グループのデータの散布度が類似）
~

***帰無仮説・対立仮説
２群それぞれの母集団平均を &mathjax(\bar{u_1});,  &mathjax(\bar{u_2}); とした場合・・
-帰無仮説 HSUB{0};：&mathjax(\bar{u_1} ＝ \bar{u_2}); （&mathjax(\bar{u_1} - \bar{u_2} ＝ 0); ）&small(２群の平均に差がない);
-対立仮説 HSUB{1};：&mathjax(\bar{u_1} \neq \bar{u_2}); （&mathjax(\bar{u_1} - \bar{u_2} \neq 0); ）&small(２群の平均に差がある);
~

***統計量 t とは
２群を比較する t検定における統計量には、__[[t分布>Statistics/T-Distribution]]__を表す以下の式を応用します。

#mathjax( t = \frac{\bar{x} -μ}{ \frac{s}{\sqrt{n}}} )

上の式において、標本平均 &mathjax(\bar{x});の部分を２群の標本平均の差 &mathjax(\bar{x_1} - \bar{x_2}); 、母平均 &mathjax(μ); の部分を２群の母集団平均の差 &mathjax(\bar{u_1} - \bar{u_2}  );（これは帰無仮説で 0 ）  と位置付けて統計量 t を算出します。

２つの群の母集団が同一であれば、標本平均の差 &mathjax(\bar{x_1} - \bar{x_2});は 0 に近づく（t値も 0 に近づく）はずですが、逆にそれが 0 から遠ざかる場合（ t値が 0から遠ざかる場合）は、帰無仮説が疑わしい・・ということになります。その遠ざかり方が、確率的に 5%以下の（つまり、めったにおこらない）現象である場合、帰無仮説は棄却されて「２群には有意な差がある」という判定となります。
~

***「統計的に有意な差」を視覚的に説明すると・・
平均値の差が同じでも、ばらつき（分散・標準偏差）が異なると、その差が統計的に有意なのか否かが異なります。視覚的なイメージで説明してみましょう。

#image(distribution.jpg)

上の３つのケースでは、いずれも平均の差は同じです。しかし、ばらつきが大きい左のグラフでは２つのサンプルが大きく重なり合っているので、その差は偶然（誤差の範囲内）である可能性があります。一方、右のグラフのようにばらつきが小さい場合は集団の性質が明らかに異なると言えそうです。一般に、ばらつきが小さいほど、t 値の値が大きく、結果 p 値が小さくなります。つまり「差がないと仮定した場合に、めったにおこらない現象が生じている」ということになり、帰無仮説が棄却される ＝ 統計的に有意な差がある・・と判定されます。
~

***付記：t検定におけるデータ数について
t検定は、少ないサンプル数であっても有意差があるかどうかを判断できるツールとして開発されているため、1つの群につき 6件～10件のデータでも統計処理することが可能です。
~
~


**サンプルプログラム
Python 等の環境で t検定を行う場合、一般に「2 つのデータ間に対応がなく、正規性および等分散性が仮定できる」ことを前提に「Student の t検定」が用いられます((２つの群に等分散性が仮定できない場合は、Welchの方法を採用します。))。（以下のプログラムサンプルに具体的な事例を記載しています）。  
Python 等の環境で t検定を行う場合、正規性および等分散性が仮定できる場合は ''Student の t検定''を採用し、等分散性が仮定できない場合は、''Welch の t検定''を採用します。以下のプログラムサンプルは、Student の t検定を使った具体的な事例です。  

-CSV形式のサンプルデータを読み込んで t検定を行うサンプルです。
https://github.com/koichi-inoue/DataScience/blob/main/t_test.ipynb
-正規乱数で２群のデータを作って t検定を行うサンプルです。
https://github.com/koichi-inoue/DataScience/blob/main/t_test_random.ipynb
~
~
~