MODEL
数理モデル・統計モデル・機械学習モデル
モデルとは、一般に模型・図形・数式など、科学的な方法において「対象とするシステムを簡略化して、その本質を表現したもの」を言います。モデルが現実世界における関心の対象を表現できていれば、モデルの利用によってシステムの理解(解釈)と予測が可能になります。例えば「地図」というモデルを使えば、その地域の地理的構造が理解できるとともに、実際に現地に行かずとも、目的地への移動経路や時間を予測することができます。
数理モデル、統計モデル、機械学習モデルなど、様々な言葉がありますが、それらの全体像は複雑に絡み合っていて、整理の仕方も様々です。
数理モデル
数理モデルは、現実世界におこる現象を微分方程式などの数式によって記述したモデルのことです。ニュートンの運動方程式もその一例です。
モデルとなる数式のパラメータを変えると何が起こるか・・、演繹的な使い方ができるモデル化手法と言えます。
統計モデル
統計モデルとは、母集団から抽出されたサンプルデータにもとづいて、対象の性質を少数のパラメータ(母数)を用いて記述するモデルです。結果として得られたデータから原因となる法則を導く点で帰納的なモデル化手法と言えます。
統計モデルの基礎にあるのは、正規分布、ポアソン分布といった 確率分布です。母集団の分布(例えば、日本人の身長)が正規分布だと仮定すると、平均と分散という2つの母数がわかれば、それで対象をモデル化することができます。確率論的に手元のデータを説明する手段が得られれば、例えば、身長180cmの人は 40クラスの中で身長の高い順で何番目になるか・・といったことが予測できるようになります。
一般に統計モデルの事例を検索すると、線形回帰、ポアソン回帰、ロジスティック回帰などが話題になっていますが、これらも確率分布の存在を仮定することによって拡張された、現実世界の抽象化の事例・・ということができます。
機械学習モデル
機械学習モデルは、結果(データ)から原因となる構造を探る点では、統計モデルと同じ帰納的なものですが、機械(コンピュータ)が与えられたアルゴリズムに従ってモデルのパラメータを見出す点、学習用に大量のデータを使う点、また「モデルがブラックボックスになる(予測の理由が説明できない)」という点にその特徴があります。
そのアルゴリズムには大きく3種類、以下のものがあります。
- 教師あり
- 学習データに対して正解ラベルを付けて学習する方法
- 「回帰」と「分類」の2つに分けられる
- 教師なし
- データの構造や分布を探索し、規則性や法則を見出す方法
- 「クラスタリング」「k平均法」「主成分分析(PCA)」などがある
- 強化学習
- 与えられた条件下で報酬を最大化させるための行動を学習
- 与えられた条件下で報酬を最大化させるための行動を学習
付記
統計も機械学習も「データに潜む規則や構造を抽出する(モデリングする)ことによって、現象の理解や未知の現象に対する予測を行う」という点で、両者は同じ目的をもったものと言えますが、その違いを端的に言うとすれば・・
- 統計モデル:
- 特定の確率分布の存在を前提に規則や構造を記述する。
- モデリングは分析者が行うため、分析者の主観や仮定が入り込む。
- 機械学習モデル:
- 特定のアルゴリズムを用いて予測モデルをつくる。
- 膨大な数のパラメータはコンピュータが算出する。
- モデルの理解よりも予測を行うことに重点が置かれている。