LogoMark.png

Statistics/Bayesian のバックアップ(No.6)


ベイズ統計

Bayesian Statistics

ベイズ統計とは18世紀にベイズによって発見された「ベイズの定理」を用いた統計手法で、20世紀半ばに発展した比較的新しい統計分野です。人工知能やディープ・ラーニングといった先端分野の中核をなす考え方ということで、注目を集めています。

今日の統計学

今日の統計学は大きく分けると、記述統計学、推計統計学、ベイズ統計学の3つに分けられますが、立場や考え方の違いで「頻度主義(一般的に扱われる統計)」と「ベイズ主義(ベイズ統計)」とに分けられます。頻度主義は「母数は不変で、データは変わり得る」と考えて真の値を求めますが、ベイズ主義は「得られたデータは不変で、母数は変わり得る」として推測を行います。

頻度主義ベイズ主義
母数(θ)定数確率変数
データ(x, y)確率変数定数

記述統計学・推計統計学:ロナルド・フィッシャーを中心に発展
ベイズ統計学:トーマス・ベイズによって理論が確立し、20世紀半ばに発展

ベイズ統計の特徴

ベイズ統計は、事前確率を元に、得られたデータから新たな確率を導出する統計手法で、従来の記述統計・推計統計(頻度主義の統計)とは大きく異なります。記述統計・推計統計では「母数は不変でデータが変わる」と考えるのに対し、ベイズ統計では「母数が変わりデータは不変である」と考えます(頻度主義の学者とベイズ主義の学者は対立しているようです)。

ベイズの定理

\[ P(\theta|X) = \frac{P(X|\theta)\cdot P(\theta)}{P(X)} = P(\theta) \times \frac{P(X|\theta)}{P(X)} \]

事象 θ を原因・仮説(Hypothesis)、事象 X を結果・データ(Data)として、その頭文字を使って、以下のように表すことが多いようです。

\[ P(H|D) = \frac{P(D|H)\cdot P(H)}{P(D)} = P(H) \times \frac{P(D|H)}{P(D)} \]

あらためてベイズの定理を言葉で書くと・・

\[事後確率 = \frac{尤度 \cdot 事前確率}{周辺尤度} = 事前確率 \times \frac{尤度}{周辺尤度}\]

事前確率 P(H) は「事象が起こる前の原因の確率」で、事後確率 P(H|D) は「事象が起こった後に考えられる原因の確率」。この定理を使って求めたいのは、事後確率 P(H|D) で、事前確率、尤度、周辺尤度の3つからそれを求める・・と言うことができます。

ベイズの定理は、人がもともと持っていた信念や考え(事前確率 P(H) )が、新しいデータや経験(尤度 P(D|H))によってどう変化するか(事後確率 P(H|D) )を意味する式ということができます。

結果(D)から原因(H)を探るという時間を逆行させる難しい問題が、時間を順行させる条件付き確率の公式を使って求めることができる・・という点に、データ分析との親和性の高さがあります。

ベイズの定理の計算事例

身近な話題として、ウイルスに感染しているという事象を原因(H)、検査で陽性になったという事象を結果(D)として、以下の確率を求めてみましょう。

検査で陽性になった場合に、ウイルスに感染している確率

以下、ウイルス感染/非感染 と 検査陽性/陰性 のクロス集計表です。

D\H感染非感染合計
合計29981000
陽性1.949.9811.92
陰性0.06998.2988.08

数字は 1000人あたりの人数

このような集計表があれば「検査で陽性になった場合に、ウイルスに感染している確率」は、陽性者全体で 11.92人、そのうち感染しているのは、1.94人ということで、「面積比」を求める感覚で、1.94 / 11.92 =0.1628(16.28%)と答えを導くことができます。

しかし、このような表としてではなく、既知の知見として公表された確率のみを使って計算しようとした場合は、ベイズの定理を使うと便利・・。

\[ P(H|D) = \frac{P(D|H)\cdot P(H)}{P(D)} \]

いずれも表を見れば 1.94/2, 2/1000, 11.92/1000 という計算で求まりますが、これらは一般に、既知の知見として結果の数字のみが公表されているので、その数字のみを使って答えが計算できる・・という話になります。

\[ P(H|D) = \frac{0.97)\cdot 0.002}{0.01192} = 0.1628 \]

表から計算した結果と一致しています(当然ですが)。

直感的には「陽性であればほぼ感染」というイメージがあるので、結果のパーセンテージは非常に小さく思えますが、2020年に発生したパンデミックでは「検査の陽性率と感染率は別の話で、陽性だからといって感染しているとは限らない」ということが言われていました。それはこのようなデータからも明らかです。

参考:条件付き確率の公式からベイズの定理へ

Venn.png

ベイズの定理は、条件付き確率の式を変形したものです。以下が一般的な条件付き確率の式です。ベン図を使うと理解しやすいでしょう。

\[ P(B|A) = \frac{P(A \cap B)}{P(A)} \]

この式を変形すると以下の形になります。

\[ P(B|A) = \frac{P(A \cap B)}{P(A)} = \frac{P(A|B)\cdot P(B)}{P(A)} \]
\[ P(A|B) = \frac{P(B|A)\cdot P(A)}{P(B)} \]

これは「ある事象 A が起こった前提での事象 B の確率 P(B|A) を使って、ある事象 B が起こったことを踏まえた事象 A の確率 P(A|B) を求めよう」という式になっています。P(A) が事前確率、P(B|A)が尤度、P(A|B) が事後確率です。

このような変形を行うのは、一般に「事前確率 P(A) と 尤度 P(B|A) は考えやすく、事後確率 P(A|B) は考えにくい」ためです。


ベイズ統計の応用事例

ベイズの定理は「原因 → 結果」ではなく、「結果 → 原因」という「逆確率」を求めるもので、かつては「主観確率を扱うのは科学的ではない」とされて注目されていませんでしたが、近年ではその実用性の高さがわかり、以下のようなサービスに利用されています。

参考サイト: