データサイエンス/13 のバックアップ(No.17)

第13回様々な手法の紹介

データサイエンス/2024?｜受講生一覧｜汎用シート

はじめに

プロジェクト「九芸パレット」からのお知らせとお願い

プロジェクト九芸パレットのメンバーから２年次生の方へ、プロジェクトの概要説明、アンケート調査、またメンバーの新規募集も含めて、直接説明があります。ご協力をお願いします。

いくつかの重要なキーワードを再確認・・

質的データ：所属・血液型・性別等のカテゴリデータ
- 各変数における変量間の比較、構成比などが関心の対象
- ２つの変数をタテ・ヨコにとったクロス集計が可能

量的データ：売り上げ・得点・血圧などの数的データ
- 各変数の変量の分布、平均・中央値・散布度などが関心の対象
- 異なる条件下で変数の平均値に統計的に有意な差があるか等も関心の対象
- ２つの変数をタテ・ヨコにとった散布図でデータ間の相関が見える

付記

あらためて、「分かる」とはどういうことか・・
データサイエンスが作り出す「言葉」のウソについて・・

機械学習の手法

ニューラルネットワーク

ニューラルネットワークは、教師あり・分類 の代表的な手法のひとつで、今話題のディープラーニングはその応用にあたります。

NeuralNetwork　← 本日はこの話が中心です。

機械学習の事例：11月25日のアンケートの結果から「専攻」を推定
- 「分類」のための学習を行うプログラム例
- 学習済みモデルを利用して未知のデータを分類するプログラム例

線形回帰

説明変数 X と目的変数 y との間にある関係を求める、つまり y = f(X) となる関数 f を求める 教師あり・回帰 の代表的な手法です。

LinearRegression

k-means法

k-means法は、教師なし・クラスタリングの代表的な手法のひとつで、サンプルをグループ分けする目的で使用します。

k-means

主成分分析

主成分分析とは 教師なし・次元削減の手法のひとつで、多数の説明変数を、少数の合成変数（複数の変数が合体したもの）に要約する手法です。

Statistics/PCA

APPENDIX

基本的な知識だけで、誰にでも作れる「分類AI」

一定数のアンケート調査結果があれば、入力データ（特徴量）が、どのカテゴリに属するかを分類する「診断系AI」をつくることができます。

例えば、企画、開発、営業、一般総合という４つのタイプがあると仮定して・・、あなたがどのタイプであるかを診断するAIをつくるとします。

まずは、実際にそれぞれの現場で働く人（なるべく多くの人）に、複数項目の数段階評価アンケートに回答してもらいます（Data Collection）。
- アンケートの項目（◯◯が好き・・の程度を数段階）が特徴量
- 回答者の実際の所属（企画 / 開発 / 営業 / 一般総合）が正解ラベル
アンケート結果を使って４つのタイプに分離すべく機械学習にかけます。学習が収束すればモデルの完成です（Fit）。
あなたの特徴量をモデルに入力すれば、あなたのタイプを推測することができます（Predict）。

世の中にある「性格診断AI」のようなものは、こんな手順で出来ています。