LogoMark.png

Statistics/Inferential のバックアップソース(No.4)

#author("2023-02-06T16:15:33+09:00","default:inoue.ko","inoue.ko")
*推測統計
Inferential Statistics

~

推測統計とは、無作為抽出されたデータから母集団の特徴・性質を推定する統計のことで、推計統計とも言います。記述統計と異なり、集められたデータは大きな母集団の中の小さな標本に過ぎないと考えます。
~

***母集団(population)と標本(sample)
-母集団:考察の対象となる特性をもつすべてのものの集団(日本工業規格)
-標 本:一つ以上の抽出単位からなる母集団の部分集合(日本工業規格)

一般に母集団というものは観念的な存在で、現実に観測できるのは標本です。例えば「視聴率」の調査に関して言えば、「全世帯」が母集団で、「調査世帯」が標本です。
 100人に聞きました。AとBどっちが好き・・
 >「Aが好き」と答えた人が70人ということで、
 Aが好きな人が多いことがわかりました。
という話は、それはそれでいいのですが、この結果をもって「日本人はAが好き」とか「人間というものはAが好き」とは断言できません。

一般に多くの実験研究が、標本調査をもって、それを一般論に拡大しています。実は、これはあくまでも「確率的にそうである可能性が高い」という話で、ひょっとしたら間違いかもしれません。ただ、実際には母集団をすべて調べるわけにはいかないので、標本から得られる統計量を根拠に、「ああであればこうである」といった記述がなされているのです。

推測統計というのは、文字通り「推測」。あくまでも確率的な問題として、物事の関係を科学的に語るための統計手法です。
~


***母数
推測統計では母集団の特性をあらわす数を''母数(parameter)''と言います。
推測される母数には、以下のようなものがあります。

-母平均:&mathjax(μ);
-母分散:&mathjax(σ^2);
-母標準偏差:&mathjax(σ);
~

***標本サイズと標本数
この2つの言葉は似て非なるものなので、注意が必要です。

-標本サイズ(サンプルサイズ)
標本(サンプル)に含まれる要素の数。例えば、100人に対して行ったアンケートであれば、標本サイズは 100。 '''n = 100''' などと記載します。
-標本数(サンプル数)
標本(サンプル)自体の数。例えば、月〜金まで、毎日30人ずつにアンケートを行って、月曜の分('''n = 30''')標本A、火曜の分を標本Bなどとした場合、標本数は月〜金で 5 となります。
~


***推測統計における統計量
推測統計では「標本を要約して母数の推測に用いるもの」を''統計量(statistic)''と言います。標本として得られたデータに対しで記述統計と同じ計算方法で算出されるものです。
-標本平均:&mathjax( \bar{x} );
-標本分散:&mathjax( s^2 );
-標本標準偏差:&mathjax( s );
~

***推測統計における母数の推定量
-平均(=標本平均)
一般に、標本平均の値をそのまま母平均の推定量とします。
 =AVERAGE(範囲)
#mathjax(μ = \frac{1}{n}\sum_{i=1}^{n} x_i)

-不偏分散(unbiased variance)
不偏分散((不偏分散は「標本不偏分散」と言うこともあり、また計算式のかたちから「n-1の分散」という言い方がなされる場合もあります。))は、標本の偏りを除いて母集団の分散を推定した値(母分散の推定量)です。一般に標本分散(の期待値)は母分散に比べて小さくなるので、それをそのまま推定に使うのではなく「偏差平方和を''n - 1''で割った値」をもって推定します((データ数 n が大きくなれば、n と n-1 の値が相対的に近づくので、推定値としての不偏分散は標本分散と近くなります。基本的に n = 1 では、当該データ値=平均値 で、ばらつきは推定のしようがありません。n = 2 以上ではじめて推定が可能になる仕組みになっています。))。
 =VAR.S(範囲)
#mathjax(u^2 = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_i - \bar{x})^2 )

-不偏標準偏差(Unbiased standard deviation)
不偏分散のルートをとった値。引数を標本と見なし、標本に基づく母集団の標準偏差の推定値を求めます。
//((実は、このあたりの言葉の使い方、専門家の間でも収拾がつかないようで、かなり英語でどう表現するか、あるいは、どの英語をどれに訳したのかで、混乱があるようです。で、意味と内容が確実に一致するのはExcelの関数名で、「この値は、STDEV.S で求めたものです。」などというのが一番間違いがないようです。))
 =STDEV.S(範囲)
#mathjax( u = \sqrt{ u^2 } )

''付記''
言葉は似ていても意味が異なるので、母分散 &mathjax(σ^2);、標本分散 &mathjax(s^2);、不偏分散 &mathjax(u^2); など、区別のために異なる記号を用いるのが通例です。
~

***統計的な推定
統計的な推定には、点推定と区間推定があります。
-点推定
母集団が正規分布であると想定して、推定平均と推定標準偏差を求めます。

-区間推定
点推定におけるパラメータのばらつきや信頼区間を示すことで、例えば「95%の確率で、◯◯の値は、a から b の間である」といった推定を行うものです。95%信頼区間、99%信頼区間などが用いられます。
~
~


~
~