第13回 様々な手法の紹介
データサイエンス/2024|受講生一覧|汎用シート
はじめに
いくつかの重要なキーワードを再確認・・
- 量的データ:売り上げ・得点・血圧などの数的データ
- 各変数の変量の分布、平均・中央値・散布度などが関心の対象
- 異なる条件下で変数の平均値に統計的に有意な差があるか等も関心の対象
- 2つの変数をタテ・ヨコにとった散布図でデータ間の相関が見える
- 質的データ:所属・血液型・性別等のカテゴリデータ
- 各変数における変量間の比較、構成比などが関心の対象
- 2つの変数をタテ・ヨコにとったクロス集計が可能
付記
- あらためて、「分かる」とはどういうことか・・
- データサイエンスが作り出す「言葉」のウソについて・・
機械学習の手法
ニューラルネットワーク
ニューラルネットワークは、教師あり・分類 の代表的な手法のひとつで、今話題のディープラーニングはその応用にあたります。
線形回帰
説明変数 X と目的変数 y との間にある関係を求める、つまり y = f(X) となる関数 f を求める 教師あり・回帰 の代表的な手法です。
k-means法
k-means法は、教師なし・クラスタリングの代表的な手法のひとつで、サンプルをグループ分けする目的で使用します。
主成分分析
主成分分析とは 教師なし・次元削減の手法のひとつで、多数の説明変数を、少数の合成変数(複数の変数が合体したもの)に要約する手法です。
APPENDIX
基本的な知識だけで、誰にでも作れる「分類AI」
一定数のアンケート調査結果があれば、入力データ(特徴量)が、どのカテゴリに属するかを分類する「診断系AI」をつくることができます。
例えば、企画、開発、営業、一般総合という4つのタイプがあると仮定して・・、あなたがどのタイプであるかを診断するAIをつくるとします。
- まずは、実際にそれぞれの現場で働く人(なるべく多くの人)に、複数項目の数段階評価アンケートに回答してもらいます(Data Collection)。
- アンケートの項目(◯◯が好き・・の程度を数段階)が特徴量
- 回答者の実際の所属(企画 / 開発 / 営業 / 一般総合)が正解ラベル
- アンケート結果を使って4つのタイプに分離すべく機械学習にかけます。学習が収束すればモデルの完成です(Fit)。
- あなたの特徴量をモデルに入力すれば、あなたのタイプを推測することができます(Predict)。
世の中にある「性格診断AI」のようなものは、こんな手順で出来ています。