第13回 様々な手法の紹介
データサイエンス/2023?|受講生一覧|汎用シート
はじめに
いくつかの重要なキーワードを再確認・・
- 量的データ:売り上げ・得点・血圧などの数的データ
- 各変数の変量の分布、平均・中央値・散布度などが関心の対象
- 異なる条件下で変数の平均値に統計的に有意な差があるかも関心の対象
- 2つの変数をタテ・ヨコにとった散布図でデータ間の相関が見える
- 質的データ:所属・血液型・性別等のカテゴリデータ
- 各変数における変量間の比較、構成比などが関心の対象
- 2つの変数をタテ・ヨコにとったクロス集計が可能
- あらためて、「分かる」とはどういうことか・・
機械学習の手法
ニューラルネットワーク
ニューラルネットワークは、教師あり・分類 の代表的な手法のひとつで、今話題のディープラーニングはその応用にあたります。
線形回帰
説明変数 X と目的変数 y との間にある関係を求める、つまり y = f(X) となる関数 f を求める 教師あり・回帰 の代表的な手法です。
k-means法
k-means法は、教師なし・クラスタリングの代表的な手法のひとつで、サンプルをグループ分けする目的で使用します。
主成分分析
主成分分析とは 教師なし・次元削減の手法のひとつで、多数の説明変数を、少数の合成変数(複数の変数が合体したもの)に要約する手法です。
APPENDIX