LogoMark.png

Statistics/χ-Squared-test のバックアップ(No.2)


カイ2乗検定

χ-squared test

(書きかけです)

概要

カイ2乗検定は、名義尺度データに対する検定として用いられるもので、「適合度の検定」や「独立性の検定」に用いられます。



適合度の検定

各カテゴリの度数に対して仮説を設定して(例えば、4つの血液型の比率は、A:B:O:AB = 4:3:2:1 であるとして)、実際のデータのカテゴリ度数が仮説とマッチするかを調べる検定を「適合度の検定」と言います。

帰無仮説と対立仮説

検定統計量 \(χ^2\)

以下の式で求められます。 \(O\) は観測度数、 \(E\) は期待度数です。

\[ χ^2 = \frac{( O_{1} - E_{1} )}{E_{1}} + \frac{( O_{2} - E_{2} )}{E_{2}} +・・+ \frac{( O_{k} - E_{k} )}{E_{k}} \]


検定の考え方

\(χ^2\) の値は、期待度数と観測度数とのズレが大きくなるほどが大きくなるもので、その実現値が \(χ^2\) 分布の棄却域(確率的に小さな領域)に入った場合は「今回のサンプル(集団)は、各カテゴリに属する人数に有意な偏りがある」と判断されます。



独立性の検定

クロス集計表の縦軸と横軸に置かれる2つの質的変数(例えば、性別と喫煙)の間に独立性があるか(あるいは連関があるか)を確認するための検定を「独立性の検定」と言います。

帰無仮説と対立仮説

検定統計量 \(χ^2\)

以下の式で求められます。 \(O\) は観測度数、 \(E\) は期待度数です。

\[ χ^2 = \frac{( O_{1} - E_{1} )}{E_{1}} + \frac{( O_{2} - E_{2} )}{E_{2}} +・・+ \frac{( O_{k} - E_{k} )}{E_{k}} \]


2X2のクロス集計表の例

以下、2X2のクロス集計表の例です。ちなみに太字部分を観測度数、縦横の合計欄に記載された各カテゴリの合計を周辺度数と言います。

喫煙者非喫煙者合計
5050100
10050150
合計150100250


期待度数

ここで「性別と喫煙には関係がない」という帰無仮説に従って、周辺度数の値をもとに期待度数を逆算すると*1、以下のような期待度数(太字部分)が算出されます。

喫煙者非喫煙者
6040100
9060150
合計150100250


検定の考え方

\(χ^2\) の値は、算出された期待度数を実際の観測度数のズレを反映するもので、ズレが大きくなるほどが値が大きくなります。その実現値が \(χ^2\) 分布の棄却域(確率的に小さな領域)に入った場合は「2つの質的変数の間には連関がある」と判断されます。