
scikit-learn の変更点


scikit-learn (サイキット・ラーン)は Python用のオープンソース (BSD ライセンス) の機械学習ライブラリで、NumPy, SciPy や Matplotlib と互換性を持つように開発されています。データの前処理、分類、回帰、クラスタリングなど、機械学習のアルゴリズムを幅広く実装しています。



***Scikit-learn のインストール
[[Python]] 言語のライブラリとしてのインストールになるので、一般の Python3 の環境であれば、Terminalから以下のコマンドでインストールできます。
 $ pip3 install scikit_learn
 $ pip3 list  ← 念のため一覧表示


データ読み込み > 訓練データとテストデータに分割 > 学習(fit)> 予測(predict)> 評価(score)という流れで、評価結果に応じて学習方法をチューニング・・というのが開発の定番スタイルです。

-1. ライブラリとデータセットの読み込み
 from sklearn import datasets
 from sklearn.model_selection import train_test_split
 from sklearn import svm
 from sklearn import metrics
 digits = datasets.load_digits()

-2. 訓練データとテストデータの用意
 X = digits.data
 y = digits.target
 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size = 0.2 )
&small(一般に、train は訓練データ、test は評価用のテストデータの意味です。);
&small(関数モデルを y = f(X) と書いた場合の、X が説明変数で、y が目的変数です。);
&small(一般に ベクトルである X は大文字、値である y は小文字で書くのが慣例です。);

-3. アルゴリズムの指定と学習
 clf = svm.SVC( gamma=0.001 )
 clf.fit( X_train, y_train )
&small(clf は一般に classifier(分類器)の略です。);

-4. モデルの評価
 accuracy = clf.score( X_test, y_test )
 print( "正解率 {accuracy} ")
 predicted = clf.predict( X_test )
 print( metrics.classification_report( y_test, predicted ) )
&small(predict は「予測」の意味です);




-''異常値検知''|Novelty and Outlier Detection
--Isolation Forest
--Local OutlierFactor
--One-Class SVM

-''次元削減(圧縮)''|Dimension Reduction 

-一般データセットAPI (General dataset API)
-トイデータセット (Toy datasets)
-リアルワールドデータセット (Real world datasets)
-生成データセット (Generated datasets)
-その他 (Loading other datasets)
