LogoMark.png

データサイエンス/13 の変更点


#author("2024-12-09T18:30:47+09:00;2023-12-18T13:58:51+09:00","default:inoue.ko","inoue.ko")
#author("2024-12-09T18:31:15+09:00;2023-12-18T13:58:51+09:00","default:inoue.ko","inoue.ko")
*第13回 様々な手法の紹介
[[データサイエンス/2024]]|[[受講生一覧>https://design.kyusan-u.ac.jp/socialdesign/?%E3%83%87%E3%83%BC%E3%82%BF%E3%82%B5%E3%82%A4%E3%82%A8%E3%83%B3%E3%82%B9]]|[[汎用シート>https://docs.google.com/spreadsheets/d/16-rKwG0foQsE5LM53cMTR2p6rUUpJHem3H6eYlt5jgQ/edit?usp=sharing]]
~

//***CONTENTS
//#contents2_1
//~
~


**はじめに
***いくつかの重要なキーワードを再確認・・
-量的データ:売り上げ・得点・血圧などの数的データ
--各変数の変量の分布、平均・中央値・散布度などが関心の対象
--異なる条件下で変数の平均値に統計的に有意な差があるか等も関心の対象
--2つの変数をタテ・ヨコにとった散布図でデータ間の相関が見える
-質的データ:所属・血液型・性別等のカテゴリデータ
--各変数における変量間の比較、構成比などが関心の対象
--2つの変数をタテ・ヨコにとったクロス集計が可能
~

***付記
-あらためて、「分かる」とはどういうことか・・
//&ref(images/categorize.blend.zip);
-データサイエンスが作り出す「言葉」のウソについて・・
&image(images/Categorize.gif);
~
~

**機械学習の手法

***ニューラルネットワーク
ニューラルネットワークは、''教師あり・分類'' の代表的な手法のひとつで、今話題のディープラーニングはその応用にあたります。
-__[[NeuralNetwork]]__ ← 本日はこの話が中心です。


-機械学習の事例:11月25日のアンケートの結果から「専攻」を推定
--[[「分類」のための学習を行うプログラム例>https://colab.research.google.com/drive/1VKPXD75XI6MRP6r4JOVkYPkPQcF8rbFN?usp=sharing]]
--[[学習済みモデルを利用して未知のデータを分類するプログラム例>https://colab.research.google.com/drive/1xrjk4wkZefJtY5D_lMk8ByosLF3ciEqv?usp=sharing]]
--__[[「分類」のための学習を行うプログラム例>https://colab.research.google.com/drive/1VKPXD75XI6MRP6r4JOVkYPkPQcF8rbFN?usp=sharing]]__
--__[[学習済みモデルを利用して未知のデータを分類するプログラム例>https://colab.research.google.com/drive/1xrjk4wkZefJtY5D_lMk8ByosLF3ciEqv?usp=sharing]]__
~


//-TensorFlow Playground
//https://playground.tensorflow.org
//ニューラルネットワークの仕組みを可視化してブラウザで直感的に理解できるようにしたサイトです。> [[Google:TensorFlow Playground 使い方]]

//-参考:Neurotic Neurons
//http://ncase.me/neurons/
//脳内でのニューロンの活動を体験的に理解できるサイトです。

~

***線形回帰
説明変数 X と目的変数 y との間にある関係を求める、つまり y = f(X) となる関数 f を求める ''教師あり・回帰'' の代表的な手法です。
-__[[LinearRegression]]__
~
~

***k-means法
#image(images/Categorize.gif,right,40%)
k-means法は、''教師なし・クラスタリング''の代表的な手法のひとつで、サンプルをグループ分けする目的で使用します。
-__[[k-means]]__
~

//***因子分析 > __[[Statistics/FactorAnalysis]]__
//~

***主成分分析
主成分分析とは ''教師なし・次元削減''の手法のひとつで、多数の説明変数を、少数の合成変数(複数の変数が合体したもの)に要約する手法です。
-__[[Statistics/PCA]]__
~

//***コレスポンデンス分析
//レスポンデンス分析(対応分析:Multiple Correspondence Analysis)とは、多変量解析法の一つで、アンケート結果のクロス集計表など、行と列からなるデータの項目間の関係を散布図のかたちで可視化する手法です。
//-__[[Statistics/MCA]]__
//~

~

**APPENDIX
***基本的な知識だけで、誰にでも作れる「分類AI」
一定数のアンケート調査結果があれば、入力データ(特徴量)が、どのカテゴリに属するかを分類する「診断系AI」をつくることができます。

例えば、企画、開発、営業、一般総合という4つのタイプがあると仮定して・・、あなたがどのタイプであるかを診断するAIをつくるとします。

-まずは、実際にそれぞれの現場で働く人(なるべく多くの人)に、複数項目の数段階評価アンケートに回答してもらいます(Data Collection)。
--アンケートの項目(◯◯が好き・・の程度を数段階)が特徴量
--回答者の実際の所属(企画 / 開発 / 営業 / 一般総合)が正解ラベル
-アンケート結果を使って4つのタイプに分離すべく機械学習にかけます。学習が収束すればモデルの完成です(Fit)。
-あなたの特徴量をモデルに入力すれば、あなたのタイプを推測することができます(Predict)。

世の中にある「性格診断AI」のようなものは、こんな手順で出来ています。
~

//***__[[Orange]]__ 
//Pythonベースのデータ分析ツール について
~
~