正規分布
Normal Distribution / Gaussian Distribution
正規分布とは、身長、体重、成績などの分布グラフでよく見かける、平均値を中心とした左右対称な山型の分布で「ベルカーブ」とも呼ばれます。天文観測データの測定誤差がある法則に従うことを数学者C.F.ガウスが見出した経緯もあって「ガウス分布」とも呼ばれます。
\(X 〜 N( μ, σ^2 )\)
と書きます。
Source:Wikimedia Commons File:Normal Distribution PDF.svg
平均値と最頻値・中央値が一致するという特徴を持ち、自然界の現象から人間の行動まで、あらゆる現象によく当てはまる標準的な確率分布です。
中心極限定理により、独立な多数の変数の和として表される確率変数は正規分布に従うことが知られていて、このことから、統計学をはじめとする様々な分野で現象をシンプルに扱うためのモデルとして用いられています。
確率密度関数
- 正規分布:
\(N( μ, σ^2 )\)
( μ:平均、σ:標準偏差)
\[f(x) = \frac{1}{\sqrt{2πσ^2}} e^{ -\frac{(x-μ)^2}{2σ^2} } ( -∞ < X < ∞ )\]e の冪乗を exp を使って表現した以下の式も同じものです。\[f(x) = \frac{1}{\sqrt{2πσ^2}} exp \left( -\frac{(x-μ)^2}{2σ^2} \right) ( -∞ < X < ∞ )\]
- 標準正規分布:
\(N( 0, 1 )\)
- 確率変数 X の線形変換 Z は 標準正規分布:N(0,1) に従います。
\[Z = \frac{X−μ}{σ}\]
- 確率変数 Z の確率密度関数は以下のように書けます。
\[f(z) = \frac{1}{\sqrt{2π}} e^{ -\frac{x^2}{2} }\]
- 確率変数 X の線形変換 Z は 標準正規分布:N(0,1) に従います。
確率の求め方
一般に、正規化した Z 値を求めることで標準正規分布表と呼ばれる一覧表を用いて、正規分布に従った事象の確率を求めることができます。
表の縦軸は、確率変数 z の上位桁、横軸は 下位桁の値です。例えば「z = 1.96 以上」となる確率は、表の縦軸 1.9 と横軸 6 の交差する部分から 0.024998 などと求められます。
累積分布関数
累積分布関数は、確率密度関数 \( f(x) \) を \(-∞\) から x までを定積分したもので、式で書けば、以下のようになりますが・・
この計算は難易度が高いことから、こちらも一般に標準正規分布表を用いて、値を算出する*1のが一般的です。直感的に右のようなグラフになることは、イメージしやすいのではないかと思います。
Source:Wikimedia Commons File:Normal Distribution CDF.svg
期待値と分散
- 正規分布の期待値: \(E(X) = μ\)
- 正規分布の分散:
\(V(X) = σ^2\)
- 標準正規分布の期待値: \(E(X) = 0\)
- 標準正規分布の分散: \(V(X) = 1\)
APPENDIX
正規分布の再生性
正規分布 \(N(μ_1, σ_1^2)\) に従うデータと、それとは独立な \(N(μ_2, σ_2^2)\) に従うデータの和も、正規分布 \(N(μ_1 + μ_2, σ_1^2 +σ_2^2 )\) に従います。このことを「正規分布には再生性がある」といいます。
例えば、国語・数学・英語の点数が、それぞれ独立に正規分布に従う場合、その合計得点も平均と分散、それぞれの和をとった正規分布に従います。
大数の法則
母平均 が μ の母集団から標本を抽出した場合、サンプルのサイズ(=標本の大きさ)が大きくなるにつれて、標本平均は母平均 μ に近づきます。標本から母平均を推測する場合は「サンプルサイズが大きいほど良い」という直感的にもあたりまえの話ですが・・
中心極限定理
母集団から標本を抽出する場合、母集団の性質によらず、抽出するサンプルサイズが大きくなるに従って、標本平均の分布は以下の正規分布 に近づきます。
関連ページ