Statistics/χ-Squared-test のバックアップ(No.2)

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
Statistics/χ-Squared-test へ行く。
- 1 (2023-01-23 (月) 18:42:14)
- 2 (2023-01-23 (月) 18:43:52)
- 3 (2023-01-26 (木) 18:43:38)
- 4 (2023-01-26 (木) 18:43:38)
- 5 (2023-02-06 (月) 16:20:40)

カイ２乗検定

χ-squared test

（書きかけです）

↑

概要

カイ２乗検定は、名義尺度データに対する検定として用いられるもので、「適合度の検定」や「独立性の検定」に用いられます。

↑

適合度の検定

各カテゴリの度数に対して仮説を設定して（例えば、４つの血液型の比率は、A：B：O：AB = 4：3：2：1 であるとして）、実際のデータのカテゴリ度数が仮説とマッチするかを調べる検定を「適合度の検定」と言います。

↑

帰無仮説と対立仮説

帰無仮説 \(H_{0}\) ：仮説に対してサンプルの度数には偏りがない
対立仮説 \(H_{1}\) ：仮説に対してサンプルの度数に偏りがある

↑

検定統計量 \(χ^2\)

以下の式で求められます。 \(O\) は観測度数、 \(E\) は期待度数です。

\[ χ^2 = \frac{( O_{1} - E_{1} )}{E_{1}} + \frac{( O_{2} - E_{2} )}{E_{2}} +・・+ \frac{( O_{k} - E_{k} )}{E_{k}} \]

↑

検定の考え方

\(χ^2\) の値は、期待度数と観測度数とのズレが大きくなるほどが大きくなるもので、その実現値が \(χ^2\) 分布の棄却域（確率的に小さな領域）に入った場合は「今回のサンプル（集団）は、各カテゴリに属する人数に有意な偏りがある」と判断されます。

↑

独立性の検定

クロス集計表の縦軸と横軸に置かれる２つの質的変数（例えば、性別と喫煙）の間に独立性があるか（あるいは連関があるか）を確認するための検定を「独立性の検定」と言います。

↑

帰無仮説と対立仮説

帰無仮説 \(H_{0}\) ：縦軸のカテゴリの違いによって横軸の度数の比が変わらない（性別によって喫煙の有無はかわらない）
対立仮説 \(H_{1}\) ：縦軸のカテゴリの違いによって横軸の度数の比が変わる（性別によって喫煙の有無に差がある）

↑

検定統計量 \(χ^2\)

以下の式で求められます。 \(O\) は観測度数、 \(E\) は期待度数です。

\[ χ^2 = \frac{( O_{1} - E_{1} )}{E_{1}} + \frac{( O_{2} - E_{2} )}{E_{2}} +・・+ \frac{( O_{k} - E_{k} )}{E_{k}} \]

↑

２X２のクロス集計表の例

以下、２X２のクロス集計表の例です。ちなみに太字部分を観測度数、縦横の合計欄に記載された各カテゴリの合計を周辺度数と言います。

	喫煙者	非喫煙者	合計
男	50	50	100
女	100	50	150
合計	150	100	250

↑

期待度数

ここで「性別と喫煙には関係がない」という帰無仮説に従って、周辺度数の値をもとに期待度数を逆算すると*1、以下のような期待度数（太字部分）が算出されます。

	喫煙者	非喫煙者	計
男	60	40	100
女	90	60	150
合計	150	100	250

↑

検定の考え方

\(χ^2\) の値は、算出された期待度数を実際の観測度数のズレを反映するもので、ズレが大きくなるほどが値が大きくなります。その実現値が \(χ^2\) 分布の棄却域（確率的に小さな領域）に入った場合は「２つの質的変数の間には連関がある」と判断されます。

カイ２乗検定

概要

適合度の検定

帰無仮説と対立仮説

検定統計量 .mathJaxContent * {line-height:5px;} \(χ^2\)

検定の考え方

独立性の検定

帰無仮説と対立仮説

検定統計量 .mathJaxContent * {line-height:5px;} \(χ^2\)

２X２のクロス集計表の例

期待度数

検定の考え方

検定統計量 \(χ^2\)

検定統計量 \(χ^2\)