Statistics/χ-Squared-test のバックアップ(No.5)

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
Statistics/χ-Squared-test へ行く。
- 1 (2023-01-23 (月) 18:42:14)
- 2 (2023-01-23 (月) 18:43:52)
- 3 (2023-01-26 (木) 18:43:38)
- 4 (2023-01-26 (木) 18:43:38)
- 5 (2023-02-06 (月) 16:20:40)

カイ二乗検定

χ-squared test

（書きかけです）

↑

概要

カイ二乗検定は、名義尺度データに対する検定として用いられるもので、「適合度の検定」や「独立性の検定」に用いられます。

↑

検定統計量 \(χ^2\)

カイ二乗検定における検定統計量 \(χ^2\) は以下の式で求められます。
\(O\) （Observed）は観測度数、 \(E\) （Expected）は期待度数です。

\[ χ^2 = \sum_{i=1}^{k} \frac{( O_i - E_i )^2}{E_i } = \frac{( O_1 - E_1 )^2}{E_1} + \frac{( O_2 - E_2 )^2}{E_2} +・・+ \frac{( O_k - E_k )^2}{E_k} \]

↑

検定の考え方

\(χ^2\) の値は、期待度数と観測度数とのズレが大きくなるほどが大きくなります。検定統計量 \(χ^2\) は、自由度 \(df = k -1\) （カテゴリ数 - 1）の \(χ^2\) 分布という確率分布に従うことがわかっていて、その実現値が分布の棄却域に入った場合は「分布には偏りがある（適合度の検定）」、「２つの質的変数の間には連関がある（独立性の検定）」などと判断されます。

↑

適合度の検定

適合度検定は、観測された度数分布が理論分布と同じかどうかを検定するものです。各カテゴリの度数に対して仮説を設定して（例えば、４つの血液型の比率は、A：B：O：AB = 4：2：3：1 であるとして）、実際のデータのカテゴリ度数が仮説とマッチするかを調べる検定を「適合度の検定」と言います。

↑

帰無仮説と対立仮説

帰無仮説 \(H_{0}\) ：仮説に対してサンプルの度数には偏りがない
対立仮説 \(H_{1}\) ：仮説に対してサンプルの度数に偏りがある

↑

観測事例と期待度数

社員100人の血液型の度数分布を、全国平均の分布と比較する例です。期待度数は、それぞれ \(全国平均比率 * n\) で求めています。

血液型	A	B	O	AB	計
観測度数	30	30	25	15	n=100
期待確率	0.40	0.20	0.30	0.10	1.0
期待度数	40	20	30	10	100

\[ χ^2 = \frac{( 30 - 40 )^2}{40} + \frac{( 30 - 20 )^2}{20} + \frac{( 25 - 30 )^2}{30} + \frac{( 15 - 10 )^2}{10}\]

\[ = \frac{100}{40} + \frac{100}{20} + \frac{25}{30} + \frac{25}{10} = 10.83\]

この例では、カテゴリ数が４なので、自由度は、4 - 1 = 3 です。 \(χ^2\) 分布表の自由度 \(df = 3\) における臨界値は、有意水準５％で 7.815 なので、棄却域は \(χ^2 ≧ 7.815\) となります。参考：カイ二乗分布表

検定統計量の実現値は 10.83 で棄却域に入るので、帰無仮説は棄却され「この会社における血液型の分布には有意な偏りがある」と判定されます。

\[χ^2_{(3)} = 10.83, 　p<.05\]

↑

独立性の検定

クロス集計表の縦軸と横軸に置かれる２つの質的変数（例えば、性別と喫煙）の間に独立性があるか（あるいは連関があるか）を確認するための検定を「独立性の検定」と言います。

↑

帰無仮説と対立仮説

帰無仮説 \(H_{0}\) ：縦軸のカテゴリの違いによって横軸の度数の比が変わらない（性別によって喫煙の有無はかわらない）
対立仮説 \(H_{1}\) ：縦軸のカテゴリの違いによって横軸の度数の比が変わる（性別によって喫煙の有無に差がある）

↑

観測事例

以下、２X２のクロス集計表の事例です。ちなみに太字部分を観測度数、縦横の合計欄に記載された各カテゴリの合計を周辺度数と言います。

	喫煙者	非喫煙者	合計
男	50	50	100
女	100	50	150
合計	150	100	250

↑

期待度数

ここで「性別と喫煙には関係がない」という帰無仮説に従って、周辺度数の値をもとに期待度数を逆算すると*1、以下のような期待度数（太字部分）が算出されます。

	喫煙者	非喫煙者	計
男	60	40	100
女	90	60	150
合計	150	100	250

（書きかけです）

カイ二乗検定

概要

検定統計量 .mathJaxContent * {line-height:5px;} \(χ^2\)

検定の考え方

適合度の検定

帰無仮説と対立仮説

観測事例と期待度数

独立性の検定

帰無仮説と対立仮説

観測事例

期待度数

検定統計量 \(χ^2\)