LogoMark.png

Statistics/Inferential の変更点


#author("2023-03-08T15:02:39+09:00","default:inoue.ko","inoue.ko")
#author("2023-11-19T23:37:21+09:00;2023-03-08T15:02:39+09:00","default:inoue.ko","inoue.ko")
*推測統計
Inferential Statistics

~

推測統計とは、無作為抽出されたデータから母集団の特徴・性質を推定する統計のことで、推計統計とも言います。記述統計と異なり、集められたデータは大きな母集団の中の小さな標本に過ぎないと考えます。

一般に母集団というものは観念的な存在で、現実に観測できるのは標本です。例えば「視聴率」の調査に関して言えば、「全世帯」が母集団で、「調査世帯」が標本です。

-母集団:考察の対象となる特性をもつすべてのものの集団(日本工業規格)
-標 本:一つ以上の抽出単位からなる母集団の部分集合(日本工業規格)

 100人に聞きました。AとBどっちが好き・・
 >「Aが好き」と答えた人が70人ということで、
 Aが好きな人が多いことがわかりました。
という話は、それはそれでいいのですが、この結果をもって「日本人はAが好き」とか「人間というものはAが好き」とは断言できません。

一般に多くの実験研究が、標本調査をもって、それを一般論に拡大しています。実は、これはあくまでも「確率的にそうである可能性が高い」という話で、ひょっとしたら間違いかもしれません。ただ、実際には母集団をすべて調べるわけにはいかないので、標本から得られる統計量を根拠に、「ああであればこうである」といった記述がなされているのです。

推測統計というのは、文字通り「推測」。あくまでも確率的な問題として、物事の関係を科学的に語るための統計手法です。
~
~

**統計量
***推測統計における母数
推測統計では母集団の特性をあらわす数を''母数(parameter)''と言います。
推測される母数には、以下のようなものがあります。

-母平均:&mathjax(μ);
-母分散:&mathjax(σ^2);
-母標準偏差:&mathjax(σ);
~

***推測統計における統計量
推測統計では「標本を要約して母数の推測に用いるもの」を''統計量(statistic)''と言います。標本として得られたデータに対しで記述統計と同じ計算方法で算出されるものです。
-標本平均:&mathjax( \bar{x} );
-標本分散:&mathjax( s^2 );
-標本標準偏差:&mathjax( s );
~

***推測統計における母数の推定量
-平均(=標本平均)
一般に、標本平均の値をそのまま母平均の推定量とします。
#mathjax(μ = \frac{1}{n}\sum_{i=1}^{n} x_i)

-不偏分散(unbiased variance)
不偏分散((不偏分散は「標本不偏分散」と言うこともあり、また計算式のかたちから「n-1の分散」という言い方がなされる場合もあります。))は、標本の偏りを除いて母集団の分散を推定した値(母分散の推定量)です。一般に標本分散(の期待値)は母分散に比べて小さくなるので、それをそのまま推定に使うのではなく「偏差平方和を''n - 1''で割った値」をもって推定します((データ数 n が大きくなれば、n と n-1 の値が相対的に近づくので、推定値としての不偏分散は標本分散と近くなります。基本的に n = 1 では、当該データ値=平均値 で、ばらつきは推定のしようがありません。n = 2 以上ではじめて推定が可能になる仕組みになっています。))。
#mathjax(u^2 = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_i - \bar{x})^2 )

-不偏標準偏差(Unbiased standard deviation)
不偏分散のルートをとった値。引数を標本と見なし、標本に基づく母集団の標準偏差の推定値を求めます。
//((実は、このあたりの言葉の使い方、専門家の間でも収拾がつかないようで、かなり英語でどう表現するか、あるいは、どの英語をどれに訳したのかで、混乱があるようです。で、意味と内容が確実に一致するのはExcelの関数名で、「この値は、STDEV.S で求めたものです。」などというのが一番間違いがないようです。))
#mathjax( u = \sqrt{ u^2 } )
~

***参考:記号の使い分け
言葉は似ていても意味が異なるので、母分散 &mathjax(σ^2);、標本分散 &mathjax(s^2);、不偏分散 &mathjax(u^2); など、区別のために異なる記号を用いるのが通例です。
~

***参考:Excelでの関数表記
-平均(=標本平均)
 =AVERAGE(範囲)

-不偏分散(unbiased variance)
 =VAR.S(範囲)

-不偏標準偏差(Unbiased standard deviation)
 =STDEV.S(範囲)

-付記:Excel の関数名について
--XXXX.P(Population)
データを母集団とみなしてそのまま計算した値
--XXXX.S(Sample)
データをサンプルとみなして母集団の値を推定した値
~
~

**統計的な推定
統計的な推定には、点推定と区間推定があります。

-点推定
母集団が正規分布であると想定して、推定平均と推定標準偏差を求めます。

-区間推定
点推定におけるパラメータのばらつきや信頼区間を示すことで、例えば「95%の確率で、◯◯の値は、a から b の間である」といった推定を行うものです。95%信頼区間、99%信頼区間などが用いられます。

-ちなみに・・
母分散(&mathjax(σ^2);)が既知の場合で、母集団が正規分布と仮定されるとすると、母平均(&mathjax(μ);)の95%信頼区間は、標本平均(&mathjax(\bar{x});)を用いて、以下のように書けます。
#mathjax( \bar{x} - 1.96 \sqrt{\frac{σ^2}{n}} ≦ μ ≦ \bar{x} + 1.96 \sqrt{\frac{σ^2}{n}} )
~
~

**仮説検定
仮説検定とは、母集団分布の母数に関する仮説を標本から検証する統計学的方法の一つで、例えば「2つのグループの平均値に差がある」といった仮説を検証する際に用いられます。

仮説検定 > __[[Statistics/HypothesisTesting]]__
-__[[t検定(t-test)>Statistics/t-test]]__(パラメトリック)
-F 検定(F-test)(パラメトリック)
-__[[分散分析(ANOVA)>Statistics/ANOVA]]__(パラメトリック)
-相関分析(パラメトリック・ノンパラメトリック)
-__[[カイ二乗検定>Statistics/χ-Squared-test]]__(ノンパラメトリック)
~
~

**APPENDIX
***推測統計の基礎となる確率と確率分布について・・
> ページを独立させました。__[[Statistics/Probability]]__
~
~
~