Statistics/Bayesian

ベイズ統計

Bayesian Statistics

ベイズ統計とは18世紀にベイズによって発見された「ベイズの定理」を用いた統計手法で、20世紀半ばに発展した比較的新しい統計分野です。人工知能やディープ・ラーニングといった先端分野の中核をなす考え方ということで、注目を集めています。

今日の統計学

今日の統計学は大きく分けると、記述統計学、推計統計学、ベイズ統計学の３つに分けられますが、立場や考え方の違いで「頻度主義（一般的に扱われる統計）」と「ベイズ主義（ベイズ統計）」とに分けられます。頻度主義は「母数は不変で、データは変わり得る」と考えて真の値を求めますが、ベイズ主義は「得られたデータは不変で、母数は変わり得る」として推測を行います。

	頻度主義	ベイズ主義
母数（θ）	定数	確率変数
データ（x）	確率変数	定数

記述統計学・推計統計学：ロナルド・フィッシャーを中心に発展
ベイズ統計学：トーマス・ベイズによって理論が確立し、20世紀半ばに発展

↑

ベイズ統計の特徴

ベイズ統計は、事前確率を元に、得られたデータから新たな確率を導出する統計手法で、従来の記述統計・推計統計（頻度主義の統計）とは大きく異なります。記述統計・推計統計では「母数は不変でデータが変わる」と考えるのに対し、ベイズ統計では「母数が変わりデータは不変である」と考えます（頻度主義の学者とベイズ主義の学者は対立しているようです）。

記述統計：標本と母集団を同一視して、その特徴をわかりやすく表す
推計統計：標本を分析して、母集団について推測する
ベイズ統計：標本を必ずしも必要とせずデータ不十分でも何とか確率を導く

↑

ベイズの定理

事象 θ を原因・仮説（Hypothesis）、事象 X を結果・データ（Data）として、その頭文字を使って、以下のように表すことが多いようです。

\[ P(H|D) = \frac{P(D|H)\cdot P(H)}{P(D)} = P(H) \times \frac{P(D|H)}{P(D)} \]

\(P(H|D)\) ：データ D の観察を踏まえた仮説 H の正しい確率（事後確率）
\(P(H)\) ：仮説 H が正しい確率（事前確率・直感的信頼）
\(P(D|H)\) ：仮説 H が正しい前提での、データ D の尤もらしさ（尤度）
\(P(D)\) ：データ D を観察する確率（周辺尤度・エビデンス）

あらためてベイズの定理を言葉で書くと・・

\[事後確率 = \frac{尤度 \cdot 事前確率}{周辺尤度} = 事前確率 \times \frac{尤度}{周辺尤度}\]

事前確率 P(H) は「事象が起こる前の原因の確率」で、事後確率 P(H|D) は「事象が起こった後に考えられる原因の確率」。この定理を使って求めたいのは、事後確率 P(H|D) で、事前確率、尤度、周辺尤度の３つからそれを求める・・と言うことができます。

ベイズの定理は、人がもともと持っていた信念や考え（事前確率 P(H) ）が、新しいデータや経験（尤度 P(D|H)）によってどう変化するか（事後確率 P(H|D) ）を意味する式ということができます。

結果（D）から原因（H）を探るという時間を逆行させる難しい問題が、時間を順行させる条件付き確率の公式を使って求めることができる・・という点に、データ分析との親和性の高さがあります。

↑

ベイズの定理の計算事例

身近な話題として、ウイルスに感染しているという事象を原因（H）、検査で陽性になったという事象を結果（D）として、以下の確率を求めてみましょう。

検査で陽性になった場合に、ウイルスに感染している確率

以下、ウイルス感染/非感染と検査陽性/陰性のクロス集計表です。

D\H	感染	非感染	合計
合計	2	998	1000
陽性	1.94	9.98	11.92
陰性	0.06	998.2	988.08

数字は 1000人あたりの人数

このような集計表があれば「検査で陽性になった場合に、ウイルスに感染している確率」は、陽性者全体で 11.92人、そのうち感染しているのは、1.94人ということで、「面積比」を求める感覚で、1.94 / 11.92 ＝0.1628（16.28%）と、ベイズの定理を使うことなく確率を導くことができます。

しかし、このような表としてではなく、既知の知見として公表された確率のみを使って計算しようとした場合は、ベイズの定理を使うと便利・・。

\[ P(H|D) = \frac{P(D|H)\cdot P(H)}{P(D)} \]

P(D|H) ：ウイルス感染者が検査で陽性になる確率 97％（尤度）。
P(H) ：感染者の割合 0.2%（事前確率）
P(D) ：陽性者の割合 1.192%（周辺尤度）

いずれの値もクロス集計表の値から 1.94/2, 2/1000, 11.92/1000 という計算で求まりますが、これらは一般に、既知の知見として結果の数字のみが公表されているので、その数字のみを使って確率を計算できる・・という話になります。

\[ P(H|D) = \frac{0.97 \cdot 0.002}{0.01192} = 0.1628 \]

表から計算した結果と一致しています（当然ですが）。

直感的には「陽性であればほぼ感染」というイメージがあるので、結果の16%は非常に小さく思えますが、2020年に発生した COVID-19 のパンデミックでも「検査の陽性率と感染率は別の話で、陽性だからといって感染しているとは限らない」ということが強調されていました。それはこのデータからも明らかです。

↑

参考：条件付き確率の公式からベイズの定理へ

ベイズの定理は、条件付き確率の式を変形したものです。以下が一般的な条件付き確率の式です。ベン図を使うと理解しやすいでしょう。

\[ P(B|A) = \frac{P(A \cap B)}{P(A)} \]

\(P(B|A)\) ：事象Aを前提として事象Bが生じる確率（条件付き確率）
\(P(A \cap B)\) ：事象A と B の同時確率
\(P(A)\) ：事象 A が生じる確率

この式を変形すると以下の形になります。

\[ P(B|A) = \frac{P(A \cap B)}{P(A)} = \frac{P(A|B)\cdot P(B)}{P(A)} \]

\[ P(A|B) = \frac{P(B|A)\cdot P(A)}{P(B)} \]

これは「ある事象 A が起こった前提での事象 B の確率 P(B|A) を使って、ある事象 B が起こったことを踏まえた事象 A の確率 P(A|B) を求めよう」という式になっています。P(A) が事前確率、P(B|A)が尤度、P(A|B) が事後確率です。

このような変形を行うのは、一般に「事前確率 P(A) と尤度 P(B|A) は考えやすく、事後確率 P(A|B) は考えにくい」ためです。

↑

ベイズ統計の応用事例

ベイズの定理は「原因 → 結果」ではなく、「結果 → 原因」という「逆確率」を求めるもので、かつては「主観確率を扱うのは科学的ではない」とされて注目されていませんでしたが、近年ではその実用性の高さがわかり、以下のようなサービスに利用されています。

迷惑メールの判別
検索エンジン
機械学習

参考サイト：