データサイエンス/13 の変更点 - OpenSquareJP

追加された行はこの色です。
削除された行はこの色です。
データサイエンス/13 へ行く。
#author("2025-12-22T18:51:07+09:00;2025-12-22T14:26:48+09:00","default:inoue.ko","inoue.ko")
*第13回 様々な手法の紹介
[[データサイエンス/2025]]｜[[受講生一覧>https://design.kyusan-u.ac.jp/socialdesign/?%E3%83%87%E3%83%BC%E3%82%BF%E3%82%B5%E3%82%A4%E3%82%A8%E3%83%B3%E3%82%B9]]｜[[汎用シート>https://docs.google.com/spreadsheets/d/1Zpb946zBDAd-7B7pgLKDSC813X5j2okT8dNlX2y0JYs/edit?usp=sharing]]
~
~

**はじめに
***最終回 1月7日（水：月曜授業日）について
-テーマ：データサイエンス・AI・未来社会に関する意見交換
-出　欠：任意とします。
-場　所：15号館4F 大会議室
~

***単位認定について
-全11課題の .ipynb ファイルを1月9日（金）までに・・
--すべてのリンクが正しく張られているか再確認して下さい。
--エラー等の放置がないよう再確認して下さい。
--''科目履修の方''は、すべてのノートの冒頭に学籍番号または氏名を記載しておいて下さい（JABEEの関係で証拠保管が必要です）。

-リンクの確認（今すぐ）
--現時点でリンクが未設定の部分がある方、今すぐノートへのリンクを掲載して下さい（ノート自体がない方は、先に当該演習回のノートを作ってリンクを張って下さい。内容は後から記述・・で構いません）。
--''科目履修の方''は、共有シート上の自身のリンクが正しいことを確認して下さい。シートは本日この後ロックします。

-その他
前回案内した授業アンケート、未回答の方は回答をお願いします。
~

***いくつかの重要なキーワードを再確認・・
-質的データ：所属・血液型・性別等のカテゴリデータ
--各変数における変量間の比較、構成比などが関心の対象
--２つの変数をタテ・ヨコにとったクロス集計が可能

-量的データ：売り上げ・得点・血圧などの数的データ
--各変数の変量の分布、平均・中央値・散布度などが関心の対象
--異なる条件下で変数の平均値に統計的に有意な差があるか等も関心の対象
--２つの変数をタテ・ヨコにとった散布図でデータ間の相関が見える
~
~

**機械学習の手法

***ニューラルネットワーク
ニューラルネットワークは、''教師あり・分類'' の代表的な手法のひとつで、今話題のディープラーニングはその応用にあたります。
-__[[NeuralNetwork]]__　← 前回のお話しを少し詳しく解説しています。

-学習済みモデルを使って画像を分類する事例
https://koichi-inoue.github.io/TensorFlowJS_MobileNet/

-2025年12月1日のアンケートをもとに、犬派か猫派かを診断する事例
--__[[診断モデルの作成サンプル>https://colab.research.google.com/drive/1psGsohsqRIYDfuCHdFWjOuGm9LsAh-sW?usp=sharing]]__
--__[[診断モデルを用いた診断サンプル>https://colab.research.google.com/drive/1SxjlD_zDeWT5VilCrRDsnvX1Cbrmgqwr?usp=sharing]]__
--参考：__[[アンケート結果>https://github.com/koichi-inoue/DataScience/blob/main/enquete2025.csv]]__
~

//-TensorFlow Playground
//https://playground.tensorflow.org
//ニューラルネットワークの仕組みを可視化してブラウザで直感的に理解できるようにしたサイトです。＞ [[Google:TensorFlow Playground 使い方]]

//-参考：Neurotic Neurons
//http://ncase.me/neurons/
//脳内でのニューロンの活動を体験的に理解できるサイトです。


***付記：基本的な知識だけで、誰にでも作れる「分類AI」
一定数のアンケート調査結果があれば、入力データ（特徴量）が、どのカテゴリに属するかを分類する「診断系AI」をつくることができます。

例えば、企画、開発、営業、総合という４つの職種タイプがあると仮定して、あなたがどのタイプであるかを診断するAIをつくるとします。

-まずは、実際にそれぞれの現場で長く働いている人（なるべく多く）に、複数項目の数段階評価アンケートに回答してもらいます（Data Collection）。
--アンケートの項目（◯◯が好き・・などの程度を数段階）＞ 特徴量
--回答者の実際の所属（企画 / 開発 / 営業 / 総合）＞ 正解ラベル

-アンケート結果を使って４つのタイプに分離すべく機械学習にかけます。学習が収束すればモデルの完成です（Fit）。

-あなたの特徴量をモデルに入力すれば、あなたのタイプを推測することができます（Predict）。

世の中にある「性格診断AI」のようなものは、こんな手順で出来ています。
~

***線形回帰
説明変数 X と目的変数 y との間にある関係を求める、つまり y = f(X) となる関数 f を求める ''教師あり・回帰'' の代表的な手法です。
-__[[LinearRegression]]__
~

***k-means法
#image(images/Categorize.gif,right,40%)
k-means法は、''教師なし・クラスタリング''の代表的な手法のひとつで、サンプルをグループ分けする目的で使用します。
-__[[k-means]]__

''付記''：データサイエンスが作り出す「概念」のウソについて・・
実態としての区別が明白ではないにも関わらず、"恣意的"に境界線を引いて区別する。人間はこういうことをよくやります。そして、区別されたそれぞれに"名前"が与えられると、そのような区分が実態として存在するかのような錯覚に陥りがちです。恣意的な言葉によって喚起された概念を鵜呑みにしない・・という姿勢が必要です。
//--Disorder（無秩序・周縁的・ビョーキ）と Disease（疾患）は別物
//--[[操作的診断（バイオマーカーなし）の弊害>Google:操作的診断の弊害]]
//よくある「20人に１人の割合で存在します」という話は、20人に１人を「めったにおこらないこと（５％有意水準）」として異常と位置付ける診断基準が設けられているからです。実態として存在しているのではなく、統計的にその存在を「喚起」している・・ということではないかと・・
//&message("・・", "個人の見解です。", red );

//-あらためて、「分かる」とはどういうことか・・
//&ref(images/categorize.blend.zip);
~

//***因子分析 ＞ __[[Statistics/FactorAnalysis]]__
//~

***主成分分析
主成分分析とは ''教師なし・次元削減''の手法のひとつで、多数の説明変数を、少数の合成変数（複数の変数が合体したもの）に要約する手法です。
-__[[Statistics/PCA]]__
~

***コレスポンデンス分析
コレスポンデンス分析（対応分析：Multiple Correspondence Analysis）とは、多変量解析法の一つで、アンケート結果のクロス集計表など、行と列からなるデータの項目間の関係を散布図のかたちで可視化する手法です。
-__[[Statistics/MCA]]__
~
~

**APPENDIX


//***__[[Orange]]__ 
//Pythonベースのデータ分析ツール について
~
~
//***2024年11月25日のアンケートの結果から「専攻」を推定
//--__[[「分類」のための学習を行うプログラム例>https://colab.research.google.com/drive/1VKPXD75XI6MRP6r4JOVkYPkPQcF8rbFN?usp=sharing]]__
//--__[[学習済みモデルを利用して未知のデータを分類するプログラム例>https://colab.research.google.com/drive/1xrjk4wkZefJtY5D_lMk8ByosLF3ciEqv?usp=sharing]]__