LogoMark.png

Statistics/PCA のバックアップ(No.1)


主成分分析

PCA|Principal Component Analysis

概要(教師なし|次元削減)

主成分分析とは多変量解析手法のひとつで、多数の説明変数を、少数の合成変数(複数の変数が合体したもの)に要約する手法です。私たちが視覚的にイメージできるのは、2次元の平面あるいは3次元の空間までで、変数がそれ以上に多くなると、何と何が連動するか、あるいは無関係か・・といった情報の意味を捉えにくくなります。そこで、複数の変数をまとめて2、3の変数に次元を落としてしまおう・・というのが次元削減の考え方です。

例えば、数学、物理、化学、生物、地理、歴史、国語、英語という8科目の成績(変数)からなるデータを、総合学力(高⇄低)と得意領域性(理系⇄文系)という2つの指標に要約して説明しよう・・というのがそれにあたります。

主成分分析は、より分散の大きな指標に注目します。分散が大きい方がデータ間の比較がしやすいからです(分散が小さい=どのデータも変わり映えしないということで、そのような変数はあまり注目に値しません)。上の例で、例えば「総合学力」の分散が最も大きい場合は、これを「第一主成分」、次に得意領域性であれば、これを「第2主成分」と言います。

参考イメージ:GoogleImage:主成分分析

用語解説

プログラム例

以下に、主成分分析 のサンプルを掲載しています。
ipynb(JupyterNotebook)形式で、GitHubに置いていますが、レンダリングがタイムアウトする場合は、下の nbviewer 経由でご覧下さい。