データマイニング
DM|Data Mining
データマイニング(Data mining:DM)とは、大量のデータに様々な解析手法を適用することで、役立つ可能性のある未知の知見を抽出する発見的(heuristic)な技術のことです。
歴史的には、1980年代にリレーショナル型データベース(昨今の代表格はMariaDB, MySQL)と操作用言語SQLが登場して以降、KDD(Knowledge Discovery in Databases)という語とともに、その有用性が注目されるようになりました。
1990年代以降、データ量の爆発的増大に伴って、ビッグデータを処理する手法として「データサイエンス」、「データマイニング」のという言葉が現れ、統計解析、人工知能の分野での応用がなされています。
マイニングの元の意味は「地中の鉱物などを掘り出すこと。採掘」。例えば、テキストデータを対象とするものをテキストマイニング、ウェブページを対象にしたものをウェブマイニングなどと言います。
CONTENTS
解析手法
頻出パターン抽出
分類(クラス分類)
- クラス(class)とは、分野、類、部類、種類のこと
- 与えられたデータに対応するカテゴリを予測する
- 入力されたデータに、事前に決まっている分類名を付与する手法
- 例えば、写真に写ったものが犬なのか猫なのか人間なのかを判別する
- 機械学習のタイプとしては「教師あり学習」
- ベイズ分類器、 決定木・・
回帰分析
- 与えられたデータに対応する実数値を予測する
- 目的変数Y と説明変数X の間にモデルを当てはめる
- 機械学習のタイプとしては「教師あり学習」
- 線形回帰、ロジスティック回帰、サポートベクトル回帰
クラスタリング
- クラスタ(Cluster)とは、群れ、集団、一団
- 与えられたデータの集合をクラスタに分ける
- 分け方は事前に指示するのではなく、データからその一団を見つける
- 機械学習のタイプとしては「教師なし学習」
- 階層的手法 (hierarchical method) 例)最短距離法
- 非階層的手法 (non-hierarchical method) 例)k-means法などの
APPENDIX
関連ページ