Statistics/χ-Squared-test の変更点 - OpenSquareJP

追加された行はこの色です。
削除された行はこの色です。
Statistics/χ-Squared-test へ行く。
#author("2023-05-25T20:05:53+09:00;2023-02-06T16:20:40+09:00","default:inoue.ko","inoue.ko")
*カイ二乗検定
χ-squared test
~
~


**概要
カイ二乗検定は、名義尺度データに対する検定として用いられるもので、「適合度の検定」や「独立性の検定」に用いられます。
~

***検定統計量 &mathjax(χ^2);
カイ二乗検定における検定統計量 &mathjax(χ^2); は以下の式で求められます。
&mathjax(O);（Observed）は観測度数、 &mathjax(E);（Expected）は期待度数です。

#mathjax( χ^2 = \sum_{i=1}^{k} \frac{( O_i - E_i  )^2}{E_i } = \frac{( O_1 - E_1 )^2}{E_1} + \frac{( O_2 - E_2 )^2}{E_2} +・・+ \frac{( O_k - E_k )^2}{E_k} ) 

~

***検定の考え方
&mathjax(χ^2); の値は、期待度数と観測度数とのズレが大きくなるほどが大きくなります。検定統計量 &mathjax(χ^2); は、自由度 &mathjax(df = k -1);（カテゴリ数 - 1）の&mathjax(χ^2); 分布という確率分布に従うことがわかっていて、その実現値が分布の棄却域に入った場合は「分布には偏りがある（適合度の検定）」、「２つの質的変数の間には連関がある（独立性の検定）」などと判断されます。
~
~

**適合度の検定
適合度検定は、観測された度数分布が理論分布と同じかどうかを検定するものです。各カテゴリの度数に対して仮説を設定して（例えば、４つの血液型の比率は、A：B：O：AB = 4：2：3：1 であるとして）、実際のデータのカテゴリ度数が仮説とマッチするかを調べる検定を「適合度の検定」と言います。
~

***帰無仮説と対立仮説
-帰無仮説 &mathjax(H_{0});：仮説に対してサンプルの度数には偏りがない
-対立仮説  &mathjax(H_{1});：仮説に対してサンプルの度数に偏りがある
~

***観測事例と期待度数
社員100人の血液型の度数分布を、全国平均の分布と比較する例です。期待度数は、それぞれ &mathjax(全国平均比率 * n); で求めています。

|血液型|A|B|O|AB|計|h
|観測度数|''30''|''30''|''25''|''15''|n=100|
|期待確率|0.40|0.20|0.30|0.10|1.0|
|期待度数|40|20|30|10|100|

#mathjax( χ^2 = \frac{( 30 - 40 )^2}{40} +  \frac{( 30 - 20 )^2}{20} + \frac{( 25 - 30 )^2}{30} + \frac{( 15 - 10 )^2}{10}) 
#mathjax( = \frac{100}{40} +  \frac{100}{20} + \frac{25}{30} + \frac{25}{10} = 10.83) 

この例では、カテゴリ数が４なので、自由度は、4 - 1 = 3 です。&mathjax(χ^2); 分布表の自由度 &mathjax(df = 3);における臨界値は、有意水準５％で 7.81 なので、棄却域は &mathjax(χ^2 ≧ 7.81);  となります。__[[参考：カイ二乗分布表>https://www.saiensu.co.jp/book_support/978-4-88384-140-0/chi-square_distribution.pdf]]__

検定統計量の実現値は 10.83 で棄却域に入るので、帰無仮説は棄却され「この会社における血液型の分布には有意な偏りがある」と判定されます。
#mathjax(χ^2_{(3)} = 10.83, 　p<.05)

~
~

**独立性の検定
クロス集計表の縦軸と横軸に置かれる２つの質的変数（例えば、性別と喫煙）の間に独立性があるか（あるいは逆に連関があるか）を確認するための検定を「独立性の検定」と言います。
~

***帰無仮説と対立仮説
-帰無仮説 &mathjax(H_{0});：縦軸のカテゴリの違いによって横軸の度数の比が変わらない（独立性がある｜性別によって喫煙の有無はかわらない）
-対立仮説  &mathjax(H_{1});：縦軸のカテゴリの違いによって横軸の度数の比が変わる（独立性がない｜性別によって喫煙の有無に差がある）
~

***観測事例
以下、２X２のクロス集計表の事例です。ちなみに太字部分を観測度数、縦横の合計欄に記載された各カテゴリの合計を周辺度数と言います。

||喫煙者|非喫煙者|合計|
|女|''50''|''50''|100|
|男|''100''|''50''|150|
|合計|150|100|250|
~

***期待度数
ここで「性別によって喫煙の有無はかわらない」という帰無仮説に従って、周辺度数の値をもとに期待度数を逆算すると((期待度数は、縦横の周辺度数の積➗総度数で求められます（例えば、100x150/250 = 60、150x150/250 = 90 といったぐあいです。）))、以下のような期待度数（太字部分）が算出されます。
||喫煙者|非喫煙者|計|
|女|''60''|''40''|100|
|男|''90''|''60''|150|
|合計|150|100|250|
~
#mathjax( χ^2 = \frac{( 50 - 60 )^2}{60} +  \frac{( 50 - 40 )^2}{40} + \frac{( 100 - 90 )^2}{90} + \frac{( 50 - 60)^2}{60}) 
#mathjax( = \frac{100}{60} +  \frac{100}{40} + \frac{100}{90} + \frac{100}{60} = 6.95) 

クロス集計表から&mathjax( χ^2 ); 値を計算する場合、自由度は（ 行数 - 1 ）×（ 列数 - 1 ）で、2X2のクロス集計表では、自由度は&mathjax((2-1)\times(2-1)=1); となります。&mathjax(χ^2); 分布表の自由度 &mathjax(df = 1);における臨界値は、有意水準５％で 3.84 なので、棄却域は &mathjax(χ^2 ≧ 3.84);  となります。__[[参考：カイ二乗分布表>https://www.saiensu.co.jp/book_support/978-4-88384-140-0/chi-square_distribution.pdf]]__

検定統計量の実現値は 6.95 で棄却域に入るので、帰無仮説は棄却され「性別によって喫煙の有無に差がある（独立性がなく連関がある）」と判定されます。
#mathjax(χ^2_{(1)} = 6.95, 　p<.05)
~
~
~