Probability
確率(probability)とは、現象に対する偶然的な頻度のことで、統計的検定の基礎となる概念です。
確率は面積に例えるとわかりやすいかもしれません。現象全体が存在する領域の面積1.0とすると、その中で起こる様々な事象の確率は、それを囲む領域の面積と考えることができます。確率密度関数も「山の面積」は 1.0です。
ベン図を使ってみましょう。「全体集合Uの面積」を 1.0 とすると、「Aが囲む面積」がAが起こる確率、「AとBの交わる面積」がAとBの同時確率、「交わり部分の面積 / Aの面積」が Aを前提として Bが起こる条件付き確率・・
様々な値をとりうる変数 X があって、それぞれの値をとる確率が決まっているとき、この X を確率変数(random variable)といいます。
例えば、さいころを投げたとき出る目の数 X は、1から6までのいずれかであり、それぞれ 1/6 の確率をもつことで、X は確率変数と言えます。
これは、次のように表すことができます(括弧の中は X がとる値の範囲)。
また「3の目が出る事象の確率は 1/6 である」ことを以下のように書きます。
一般的な関数とは異なり、確率関数では変数は実数ではなく「事象」です。また、1,2,3・・ などの実現した事象を示す値を「実現値」といいます。
確率分布(probability distribution)とは、横軸に確率変数、縦軸にその確率を表したものです。確率変数には、離散型確率変数(discrete random variable)と連続型確率変数(continuous random variable)とがあって、離散型確率変数の場合の確率分布は「確率質量関数」、連続型確率変数の場合の確率分布は「確率密度関数」で表されます。
理論的な確率分布は一般に数式で表されます。分布の形を決める数値をパラメータといい、例えば正規分布の場合、平均 \(μ\) と標準偏差 \(σ\) という2つのパラメータを持ちます。代表的な確率分布に以下のようなものがあります。
確率変数が量的な変数である場合、確率分布を特徴づける量のひとつに期待値(Expected Value)があります。これは事実上「平均値」です。
確率分布を特徴づける量には、確率分布が期待値の周りにどの程度広がっているかを表す値も重要で、分散と標準偏差がこれにあたります。記述統計量の計算で紹介したものと同様です。
尚、標準偏差は分散 V(X) の平方根をとった値として定義されます。
上記の期待値と分散以外で、確率分布を特徴づける値に歪度と尖度があります。
2つの確率変数を同時に考えた場合の確率を「同時確率」といいます。
例えば、2つのサイコロA,Bがあって、Aの出る目がX、Bの出る目がYの場合、Aが2でBが3の場合の確率は、
\(P(X=1, Y=2)\)
と表します。
ひとつの確率変数Yの値を前提とした場合の、もう一方の確率変数Xの確率(ある事象が起こったという条件(前提)の下で別の事象が起こる確率)を「条件付き確率」といい、 \(P(X|Y)\) のように表します。
関連事項:Statistics/Bayesian