LogoMark.png

Statistics/ANOVA のバックアップ差分(No.3)


#author("2023-01-20T16:58:36+09:00;2023-01-20T13:59:44+09:00","default:inoue.ko","inoue.ko")
#author("2023-01-20T18:56:25+09:00;2023-01-20T13:59:44+09:00","default:inoue.ko","inoue.ko")
*ANOVA
__An__alysis __o__f __Va__riance
~
(書きかけです)
~

**概要
分散分析とは、統計量がF分布に従うことを前提としたパラメトリック検定((パラメトリック検定とは、母集団分布に特定の分布を仮定した検定のことです。))の一種です。3つ以上の群(水準)に対して、誤差による分散(群内変動)と効果による分散(群間変動)の比を F検定を用いて確認することで、各水準の母平均に誤差以上の効果があるか否かを判断する・・というものです。
分散分析とは、統計量がF分布に従うことを前提としたパラメトリック検定((パラメトリック検定とは、母集団分布に特定の分布を仮定した検定のことです。))の一種です。3つ以上の群(水準)に対して、効果による分散(''群間変動'')と誤差による分散(''群内変動'')との比(''F値'')を F検定を用いて確認することで、各水準の母平均に誤差以上の効果があるか否かを判断する・・というものです。

~

***前提
分散分析を行うには、対象となるデータの分布が1) 正規分布に従っていること(正規性)、2) 分散の等質性があること、3) 観測値の独立性(無作為標本)があることが前提となります。
//データが正規分布に従っていない場合は一般的なパラメトリックな手法が使えないので、ノンパラメトリックな手法を用いて検定する必要があります。
~


***帰無仮説
分散分析の帰無仮説と対立仮説を、3群の分散分析の場合を例に確認します。
-帰無仮説H0:A群の母平均 = B群の母平均 = C群の母平均
-対立仮説H1:A群、B群、C群の母平均の中のいずれかに異なる値がある
~
~

***分散分析表
|要因|CENTER:平方和 S|CENTER:自由度 df|CENTER:不偏分散 V|CENTER:F値|h
|群|S(群)|CENTER:df(群)&br;(群の数 -1)|CENTER:V(群)|CENTER:V(群)/V(残)|
|残差|S(残差)|CENTER:df(残差)&br;(全データ - 群の数)|CENTER:V(残差)&br;(S(残)/df(差))||
|全体|S(全体)|CENTER:df(全体)| | |
**用語解説
以下、A・B・C の3社の製品の耐久性を比較する・・という例で、分散分析の用語について概説します。
//&color(red){以下の用語は統計ソフトを使用する際に必要になります。データだけ集めれば、あとは統計ソフトが勝手にやってくれる・・というものではなく、正しい検定を行うには、言葉の意味を理解したうえで、いくつものデータを正しく入力する必要があります。};
~

-平方和、自由度、不偏分散 > F値(群の不偏分散と残差の不偏分散の比)
-F値を F分布表に照らして > P値
***要因
データの値を変化させる原因を「要因」といいます。この場合「会社」です。要因の数は複数設定されることもあります。例えば、A・B・Cの3社の製品を、それぞれ、温暖な地域で使用した場合と、寒冷な地域で使用した場合とで比較する場合、要因は2つ。ひとつは「製造会社」もうひとつは「気候」です。この場合、3x2 で6種類の評価実験が必要になります。
~

***水準(群)
要因を構成する条件を「水準(群)」といいます。上の例で「会社」要因で言えば、A・B・Cの3つの「水準(群)」が存在します。
~

***事例解説
以下、A,B,Cの3社の製品の耐久性を比較する・・という話で、分散分析の概要について説明します。
//&color(red){以下の用語は統計ソフトを使用する際に必要になります。データだけ集めれば、あとは統計ソフトが勝手にやってくれる・・というものではなく、正しい検定を行うには、言葉の意味を理解したうえで、いくつものデータを正しく入力する必要があります。};
***分散分析の種類
分散分析には大きく一元配置と二元配置(多元配置)の2種類があります。

-要因
データの値を変化させる原因を「要因」といいます。この場合「会社」です。要因の数は複数設定されることもあります。例えば、A,B,Cの3社の製品を、それぞれ、温暖な地域で使用した場合と、寒冷な地域で使用した場合とで比較する場合、要因は2つ。ひとつは「会社」もうひとつは「気候」です。3x2 で6種類の評価実験が必要になります。
-水準
要因を構成する条件を「水準」といいます。この場合 A、B、Cの3つです。
-被験者間計画
ひとりの被験者をひとつの水準にのみ割り当てるケース。例えばA社の製品を10人、B社製品10人、C社製品10人、全体で30人が評価する実験計画。
-被験者内計画
同じ被験者をすべての水準に割り当てる場合。例えば30人全員が、A,B,C,すべての製品を評価する実験計画。当然検定力は上がります。
-一元配置分散分析:1要因だけに着目して影響を調べる
注)Pythonでは ''SciPy'' の scipy.stats.f_oneway( ) を利用
~

これらを組み合わせて、「1要因被験者間計画」とか、「2要因被験者内計画」といった実験計画が行われます。以下も重要なキーワードです。
-二元配置分散分析:2要因の影響の有無を調べる
注)Pythonでは ''statsmodels'' の statsmodels.api.stats.anova_lm( ) を利用
--2要因の分散分析では、まず2つの要因の交互作用を検証します。
--交互作用が認められなかった場合は主効果の検定を行います。
--交互作用が認められた場合は単純主効果の検定を行います。たとえば「会社」要因と気候要因の交互作用が有意である場合、気候要因の特定水準における会社要因の主効果、また会社要因の特定水準における気候要因の主効果について分析を行います。
~

-主効果 main effect
***被験者間計画と被験者内計画
被験者間計画とは、ひとりの被験者をひとつの水準にのみ割り当てるケース。例えばA社の製品を10人、B社製品10人、C社製品10人、全体で30人が評価する実験計画。一方、被験者内計画とは、同じ被験者をすべての水準に割り当てる場合。例えば30人全員が、A,B,C,すべての製品を評価する実験計画。当然検定力は上がります。

要因と被験者の計悪を組み合わせて、「1要因被験者間計画」、「2要因被験者内計画」といった実験計画が行われます。
~

***主効果 main effect
特定の要因単独で有意に差が認められるときは,主効果(または単純主効果)がある・・といいます。
-交互作用 interaction
~

***交互作用 interaction
要因を組み合わせた場合の複合的な効果がある場合は、交互作用がある・・といいます。
~

要因が1つの場合、以下の手順で検定します。
-主効果の有無を確認します。
-主効果が有意である場合には、次に多重比較を行います。多重比較というのは、各水準間で具体的に、どれとどれに差があるのかを見極める作業です。
***多重比較
多重比較(Multiple Comparison Procedure)とは水準間の平均値の差を比較する検定手法で、これを用いると、3水準以上の比較において、どの水準間に差があるかを調べることができます。
 一般に、分散分析で有意と判断された場合、その下位検定(事後検定)として多重比較が行われますが、分散分析では有意なのに、多重比較では群間の有意差が見いだせない場合や、あるいはその逆の場合あり、分散分析と多重比較は独立に行うものと考えた方が良いとされています。
 多重比較には様々な種類があって、分散分析を事前に行うことを前提とした Scheffe法や、分散分析とは独立に群間の有意差検定が可能な Bonferroni法、Tukey-Kramer法などがあります。
~
~

要因が2つ以上になった場合、検定の手順は煩雑になってきます。
-2要因の分散分析では、まず2つの要因の交互作用を検証します。
-交互作用が認められなかった場合は主効果を検定を行います。主効果が有意である場合には必要に応じて多重比較を行います。
-交互作用が認められた場合は、単純主効果の検定を行います。たとえば要因Aと要因Bの交互作用が有意である場合、要因Bの特定水準における要因Aの主効果、また要因Aの特定水準における要因Bの主効果について分析を行います。単純主効果が有意である場合には、必要に応じて多重比較を行います。 
**分散分析表
分散分析の結果は、一般に「分散分析表」の形で提示します。一元配置と二元配置では、異なるので、それぞれ事例を紹介します。
~

***一元配置分散分析表
|要因|CENTER:平方和 S|CENTER:自由度 df|CENTER:平均平方 V|CENTER:F値|h
|群間|CENTER:32|CENTER:2|CENTER:16.00|CENTER:13.11|
|群内|CENTER:11|CENTER:9|CENTER:1.22||
|全体|CENTER:43|CENTER:11|||

(書きかけです)

-平方和、自由度、不偏分散 > F値(群の不偏分散と残差の不偏分散の比)
-F値を F分布表に照らして > P値(F値が大きいとP値は小さくなります)
-郡内変動よりも、群間変動のほうが大きい場合に F値が大きくなります。すなわち、偶然による誤差よりも、群の要因による誤差のほうが大きいことから、いずれか群間に違いがある・・と判定する・・という流れになります。
~

***二元配置分散分析表
//| |CENTER:平方和 S|CENTER:自由度 df|CENTER:不偏分散 V|CENTER:F値|h
//|要因1|S1|CENTER:df(水準)&br;(水準数 -1)|CENTER:V(群)|CENTER:V(群)/V(残)|
//|要因2|S2|CENTER:df(水準)&br;(水準数 -1)|CENTER:V(群)|CENTER:V(群)/V(残)|
//|要因1x 要因2|S|CENTER:df(水準)&br;(水準 -1)|CENTER:V(群)|CENTER:V(群)/V(残)|
//|残差|S(残差)|CENTER:df(残差)&br;(全データ - 水準数)|CENTER:V(残差)&br;(S(残)/df(差))||
//|全体|S(全体)|CENTER:df(全体)| | |
~
~