t分布
Students T-Distribution
t分布の定義
n個の確率変数 \( x_1, x_2,・・x_n\) がすべて独立で、 \(N(μ,σ^2)\) に従うとき、以下の統計量 t は 自由度 n-1 の t分布に従う・・と定義されています。
\[ t = \frac{\bar{x} -μ}{ \frac{s}{\sqrt{n}}} \]
- \(\bar{x}\) :標本平均
- \(μ\) :母平均
- \(s\) :不偏標準偏差(母集団の推定値) \(s = \sqrt{ \frac{1}{n - 1} \sum_{i = 1}^{n} (x_i - \bar{x})^2} \)
-
\(n\)
:サンプルサイズ(データ数)
統計量 t の計算式が意味するもの
統計量 t は、要するに「標本平均と母集団平均の差」を見ているわけで、t の度数分布は、0を平均として左右対称になるであろうことは、直感的に想像できるかと思います。
統計量 t の計算式の分子の部分は「母集団平均
\(μ\)
と標本平均
\(\bar{x}\)
の差」で、標本サイズ n が大きくなればその絶対値は小さくなります。同様に分母の部分も、標本サイズ n が大きくなれば値が小さくなります。結果、n の値が異なっても(言い換えれば、自由度 df = n-1 が異なったとしても)、統計量 t の分布グラフの大きさ・形はそれほど変わるものではありません(下記「描画例」参照)。
描画例
以下、Python の統計関数(SciPy.stats)を使って自由度 1, 3, 5 の t分布と正規分布を描画したものです。先述したとおり、自由度(df = n-1)が変わっても、グラフが大きく異なることはありません。
# ライブラリの読み込み import numpy as np import matplotlib.pyplot as plt from scipy import stats # データ列の準備(-3 ~ 3 の間で100個) x = np.linspace(-3, 3, 100) # t分布関数グラフの描画 for df in range(1, 6, 2): t = stats.t.pdf(x, df) plt.plot(x, t, label=f"df={df}") # 正規分布関数グラフの描画 n = stats.norm.pdf(x) plt.plot(x,n, label=f"normal") # 凡例を表示 plt.legend()
t分布の特徴
- t分布は、正規分布と同様に左右対称の形状をしていて、標準正規分布(z分布)と同様に平均値は 0 です。
- 標準正規分布 \(N(0,1)\) はパラメータなしに一意に定まる確率分布ですが、t 分布は母標準偏差が既知であることを前提とせず、自由度(df:Degree of Freedom)をパラメータとして定義されます。自由度は n-1 とされており、これは標本サイズ n に関連しています。
- t の確率分布から、母平均 \(μ\) の確率分布を求めることができるので、これによって \(μ\) の区間推定や、t検定 すなわち、2群の平均値の差の検定などを行うことができます。
- t分布は、標本サイズが小さい場合や、母標準偏差がわからない場合、またはその両方の場合に最も有効です。
- 標本サイズが大きくなると、t分布は正規分布に似てきます。