LogoMark.png

Statistics/T-Distribution の変更点


#author("2024-11-18T16:54:36+09:00;2023-11-19T18:05:55+09:00","default:inoue.ko","inoue.ko")
#author("2024-11-18T16:56:31+09:00;2023-11-19T18:05:55+09:00","default:inoue.ko","inoue.ko")
*t分布
Students T-Distribution
~


***t分布の定義
//#image(https://upload.wikimedia.org/wikipedia/commons/thumb/6/63/T_distribution_2df_enhanced.svg/768px-T_distribution_2df_enhanced.svg.png,right,35%)
//&scale(75){Source:[[Wikimedia Commons File:T distribution 2df enhanced.svg>https://commons.wikimedia.org/wiki/File:T_distribution_2df_enhanced.svg]]};

n個の確率変数 &mathjax( x_1, x_2,・・x_n); がすべて独立で、&mathjax(N(μ,σ^2)); に従うとき、以下の統計量 t は 自由度 n-1 の t分布に従う・・と定義されています。 

#mathjax( t = \frac{\bar{x} -μ}{ \frac{s}{\sqrt{n}}} )

-&mathjax(\bar{x});:標本平均
-&mathjax(μ);:母平均
-&mathjax(s);:不偏標準偏差(母集団の推定値)&mathjax(s = \sqrt{ \frac{1}{n - 1} \sum_{i = 1}^{n} (x_i - \bar{x})^2} );
-&mathjax(n);:サンプルサイズ(データ数)
~

***統計量 t の計算式が意味するもの
統計量 t の値の計算式は、要するに「サンプルの平均と母集団平均の差」を見ているわけで、t の度数分布は、0を平均として左右対称になるであろうことは、直感的に想像できるかと思います。
統計量 t は、要するに「標本平均と母集団平均の差」を見ているわけで、t の度数分布は、0を平均として左右対称になるであろうことは、直感的に想像できるかと思います。

統計量 t の計算式の分子の部分は「母集団平均&mathjax(μ);と標本平均&mathjax(\bar{x});の差」で、標本サイズ n が大きくなればその絶対値は小さくなります。同様に分母の部分も、標本サイズ n が大きくなれば値が小さくなります。結果、n の値が異なっても(言い換えれば、自由度 df = n-1 が異なったとしても)、統計量 t の分布グラフの大きさ・形はそれほど変わるものではありません(下記「描画例」参照)。
~

***描画例
以下、Python の統計関数(SciPy.stats)を使って自由度 1, 3, 5 の t分布と正規分布を描画したものです。先述したとおり、自由度(df = n-1)が変わっても、グラフが大きく異なることはありません。
#image(T-Distribution.jpg,right,40%)

 # ライブラリの読み込み
 import numpy as np
 import matplotlib.pyplot as plt
 from scipy import stats
 
 # データ列の準備(-3 ~ 3 の間で100個)
 x = np.linspace(-3, 3, 100)
 
 # t分布関数グラフの描画
 for df in range(1, 6, 2):
     t = stats.t.pdf(x, df)
     plt.plot(x, t, label=f"df={df}")
 
 # 正規分布関数グラフの描画
 n = stats.norm.pdf(x)
 plt.plot(x,n, label=f"normal")
 
 # 凡例を表示
 plt.legend()
~


***t分布の特徴
-t分布は、正規分布と同様に左右対称の形状をしていて、標準正規分布(z分布)と同様に平均値は 0 です。

-標準正規分布 &mathjax(N(0,1));はパラメータなしに一意に定まる確率分布ですが、t 分布は母標準偏差が既知であることを前提とせず、自由度(df:Degree of Freedom)をパラメータとして定義されます。自由度は n-1 とされており、これは標本サイズ n に関連しています。

-t の確率分布から、母平均 &mathjax(μ);の確率分布を求めることができるので、これによって &mathjax(μ);の区間推定や、__[[t検定>Statistics/t-test]]__ すなわち、2群の平均値の差の検定などを行うことができます。

-t分布は、標本サイズが小さい場合や、母標準偏差がわからない場合、またはその両方の場合に最も有効です。

-標本サイズが大きくなると、t分布は正規分布に似てきます。
~
~
~