#author("2023-02-06T16:15:33+09:00","default:inoue.ko","inoue.ko") *推測統計 Inferential Statistics ~ 推測統計とは、無作為抽出されたデータから母集団の特徴・性質を推定する統計のことで、推計統計とも言います。記述統計と異なり、集められたデータは大きな母集団の中の小さな標本に過ぎないと考えます。 ~ ***母集団(population)と標本(sample) -母集団:考察の対象となる特性をもつすべてのものの集団(日本工業規格) -標 本:一つ以上の抽出単位からなる母集団の部分集合(日本工業規格) 一般に母集団というものは観念的な存在で、現実に観測できるのは標本です。例えば「視聴率」の調査に関して言えば、「全世帯」が母集団で、「調査世帯」が標本です。 100人に聞きました。AとBどっちが好き・・ >「Aが好き」と答えた人が70人ということで、 Aが好きな人が多いことがわかりました。 という話は、それはそれでいいのですが、この結果をもって「日本人はAが好き」とか「人間というものはAが好き」とは断言できません。 一般に多くの実験研究が、標本調査をもって、それを一般論に拡大しています。実は、これはあくまでも「確率的にそうである可能性が高い」という話で、ひょっとしたら間違いかもしれません。ただ、実際には母集団をすべて調べるわけにはいかないので、標本から得られる統計量を根拠に、「ああであればこうである」といった記述がなされているのです。 推測統計というのは、文字通り「推測」。あくまでも確率的な問題として、物事の関係を科学的に語るための統計手法です。 ~ ***母数 推測統計では母集団の特性をあらわす数を''母数(parameter)''と言います。 推測される母数には、以下のようなものがあります。 -母平均:&mathjax(μ); -母分散:&mathjax(σ^2); -母標準偏差:&mathjax(σ); ~ ***標本サイズと標本数 この2つの言葉は似て非なるものなので、注意が必要です。 -標本サイズ(サンプルサイズ) 標本(サンプル)に含まれる要素の数。例えば、100人に対して行ったアンケートであれば、標本サイズは 100。 '''n = 100''' などと記載します。 -標本数(サンプル数) 標本(サンプル)自体の数。例えば、月〜金まで、毎日30人ずつにアンケートを行って、月曜の分('''n = 30''')標本A、火曜の分を標本Bなどとした場合、標本数は月〜金で 5 となります。 ~ ***推測統計における統計量 推測統計では「標本を要約して母数の推測に用いるもの」を''統計量(statistic)''と言います。標本として得られたデータに対しで記述統計と同じ計算方法で算出されるものです。 -標本平均:&mathjax( \bar{x} ); -標本分散:&mathjax( s^2 ); -標本標準偏差:&mathjax( s ); ~ ***推測統計における母数の推定量 -平均(=標本平均) 一般に、標本平均の値をそのまま母平均の推定量とします。 =AVERAGE(範囲) #mathjax(μ = \frac{1}{n}\sum_{i=1}^{n} x_i) -不偏分散(unbiased variance) 不偏分散((不偏分散は「標本不偏分散」と言うこともあり、また計算式のかたちから「n-1の分散」という言い方がなされる場合もあります。))は、標本の偏りを除いて母集団の分散を推定した値(母分散の推定量)です。一般に標本分散(の期待値)は母分散に比べて小さくなるので、それをそのまま推定に使うのではなく「偏差平方和を''n - 1''で割った値」をもって推定します((データ数 n が大きくなれば、n と n-1 の値が相対的に近づくので、推定値としての不偏分散は標本分散と近くなります。基本的に n = 1 では、当該データ値=平均値 で、ばらつきは推定のしようがありません。n = 2 以上ではじめて推定が可能になる仕組みになっています。))。 =VAR.S(範囲) #mathjax(u^2 = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_i - \bar{x})^2 ) -不偏標準偏差(Unbiased standard deviation) 不偏分散のルートをとった値。引数を標本と見なし、標本に基づく母集団の標準偏差の推定値を求めます。 //((実は、このあたりの言葉の使い方、専門家の間でも収拾がつかないようで、かなり英語でどう表現するか、あるいは、どの英語をどれに訳したのかで、混乱があるようです。で、意味と内容が確実に一致するのはExcelの関数名で、「この値は、STDEV.S で求めたものです。」などというのが一番間違いがないようです。)) =STDEV.S(範囲) #mathjax( u = \sqrt{ u^2 } ) ''付記'' 言葉は似ていても意味が異なるので、母分散 &mathjax(σ^2);、標本分散 &mathjax(s^2);、不偏分散 &mathjax(u^2); など、区別のために異なる記号を用いるのが通例です。 ~ ***統計的な推定 統計的な推定には、点推定と区間推定があります。 -点推定 母集団が正規分布であると想定して、推定平均と推定標準偏差を求めます。 -区間推定 点推定におけるパラメータのばらつきや信頼区間を示すことで、例えば「95%の確率で、◯◯の値は、a から b の間である」といった推定を行うものです。95%信頼区間、99%信頼区間などが用いられます。 ~ ~ ~ ~