#author("2021-11-03T14:31:41+09:00;2021-02-10T13:36:44+09:00","default:inoue.ko","inoue.ko") #author("2023-09-07T14:02:47+09:00;2021-11-03T14:31:41+09:00","default:inoue.ko","inoue.ko") *データマイニング DM|Data Mining ~ データマイニング(Data mining:DM)とは、大量のデータに様々な解析手法を適用することで、役立つ可能性のある''未知の知見''を抽出する発見的(heuristic)な技術のことです。 歴史的には、1980年代にリレーショナル型データベース(昨今の代表格はMariaDB, MySQL)と操作用言語SQLが登場して以降、KDD(Knowledge Discovery in Databases)という語とともに、その有用性が注目されるようになりました。 1990年代以降、データ量の爆発的増大に伴って、ビッグデータを処理する手法として「[[データサイエンス>DataScience]]」、「データマイニング」のという言葉が現れ、統計解析、人工知能の分野での応用がなされています。 マイニングの元の意味は「地中の鉱物などを掘り出すこと。採掘」。例えば、テキストデータを対象とするものをテキストマイニング、ウェブページを対象にしたものをウェブマイニングなどと言います。 ~ ***CONTENTS #contents2_1 ~ **解析手法 ***頻出パターン抽出 -高頻度で発生する特徴的なパターンを見つける -クラスタリングと並ぶ「教師なし学習」の代表 -相関ルール抽出 > [[Google:おむつとビール]] ~ ***分類(クラス分類) -クラス(class)とは、分野、類、部類、種類のこと -与えられたデータに対応するカテゴリを予測する -入力されたデータに、事前に決まっている分類名を付与する手法 -例えば、写真に写ったものが犬なのか猫なのか人間なのかを判別する -機械学習のタイプとしては「教師あり学習」 -ベイズ分類器、 決定木・・ ~ ***回帰分析 -与えられたデータに対応する実数値を予測する -目的変数Y と説明変数X の間にモデルを当てはめる -機械学習のタイプとしては「教師あり学習」 -線形回帰、ロジスティック回帰、サポートベクトル回帰 ~ ***クラスタリング -クラスタ(Cluster)とは、群れ、集団、一団 -与えられたデータの集合をクラスタに分ける -分け方は事前に指示するのではなく、データからその一団を見つける -機械学習のタイプとしては「教師なし学習」 -階層的手法 (hierarchical method) 例)最短距離法 -非階層的手法 (non-hierarchical method) 例)k-means法などの ~ ~ **APPENDIX ***関連ページ -[[DataScience]] -[[ArtificialIntelligence]] -[[ArtificialIntelligence/Links]] -[[Data]] -[[Statistics]] -[[DataVisualization]] -[[MachineLearning]] --[[DecisionTree]] --[[k-means]] --[[LinearRegression]] --[[LogisticRegression]] --[[NeuralNetwork]] --[[PrincipalComponentAnalysis]] --[[PrincipalComponentAnalysis>Statistics/PCA]] --[[MultipleCorrespondenceAnalysis>Statistics/MCA]] --[[RandomForest]] --[[SupportVectorMachine]] //-[[DataMining]] -[[Python]] --[[Pandas]] --[[scikit-learn]] -[[GoogleColaboratory]] -[[Orange]] -[[OpenData]] -[[DataScience/SubMenu]] ~ ~ ~