第13回 様々な手法の紹介
データサイエンス/2025|受講生一覧|汎用シート
はじめに
最終回 1月7日(水:月曜授業日)について
- テーマ:データサイエンス・AI・未来社会に関する意見交換
- 出 欠:任意とします。
- 場 所:15号館4F 大会議室
単位認定について
- 全11課題の .ipnb ファイルを1月9日(金)までに・・
- すべてのリンクが正しく張られているか再確認して下さい。
- エラー等の放置がないよう再確認して下さい。
- 科目履修の方は、すべてのノートの冒頭に学籍番号または氏名を記載しておいて下さい(JABEEの関係で保管が必要です)。
- リンクの確認(今すぐ)
- 現時点でリンクが未設定の部分がある方、今すぐノートへのリンクを掲載して下さい(ノート自体がない方は、先に当該演習回のノートを作ってリンクを張って下さい。内容は後から記述・・で構いません)。
- 科目履修の方は、共有シート上の自身のリンクが正しいことを確認して下さい。シートは本日この後ロックします。
いくつかの重要なキーワードを再確認・・
- 質的データ:所属・血液型・性別等のカテゴリデータ
- 各変数における変量間の比較、構成比などが関心の対象
- 2つの変数をタテ・ヨコにとったクロス集計が可能
- 量的データ:売り上げ・得点・血圧などの数的データ
- 各変数の変量の分布、平均・中央値・散布度などが関心の対象
- 異なる条件下で変数の平均値に統計的に有意な差があるか等も関心の対象
- 2つの変数をタテ・ヨコにとった散布図でデータ間の相関が見える
機械学習の手法
ニューラルネットワーク
ニューラルネットワークは、教師あり・分類 の代表的な手法のひとつで、今話題のディープラーニングはその応用にあたります。
- 2025年12月1日のアンケートをもとに、犬派か猫派かを診断する事例
付記:基本的な知識だけで、誰にでも作れる「分類AI」
一定数のアンケート調査結果があれば、入力データ(特徴量)が、どのカテゴリに属するかを分類する「診断系AI」をつくることができます。
例えば、企画、開発、営業、総合という4つの職種タイプがあると仮定して、あなたがどのタイプであるかを診断するAIをつくるとします。
- まずは、実際にそれぞれの現場で長く働いている人(なるべく多く)に、複数項目の数段階評価アンケートに回答してもらいます(Data Collection)。
- アンケートの項目(◯◯が好き・・などの程度を数段階)> 特徴量
- 回答者の実際の所属(企画 / 開発 / 営業 / 総合)> 正解ラベル
- アンケート結果を使って4つのタイプに分離すべく機械学習にかけます。学習が収束すればモデルの完成です(Fit)。
- あなたの特徴量をモデルに入力すれば、あなたのタイプを推測することができます(Predict)。
世の中にある「性格診断AI」のようなものは、こんな手順で出来ています。
線形回帰
説明変数 X と目的変数 y との間にある関係を求める、つまり y = f(X) となる関数 f を求める 教師あり・回帰 の代表的な手法です。
k-means法
k-means法は、教師なし・クラスタリングの代表的な手法のひとつで、サンプルをグループ分けする目的で使用します。
- 付記:データサイエンスが作り出す「概念」のウソについて・・
- Disorder(無秩序・周縁的・ビョーキ)と Disease(疾患)は別物
- 操作的診断(バイオマーカーなし)の弊害
よくある「20人に1人の割合で存在します」という話は、20人に1人を「めったにおこらないこと(5%有意水準)」として異常と位置付ける診断基準が設けられているからです。実態として存在しているのではなく、統計的にその存在を「喚起」している・・ということではないかと・・
主成分分析
主成分分析とは 教師なし・次元削減の手法のひとつで、多数の説明変数を、少数の合成変数(複数の変数が合体したもの)に要約する手法です。
コレスポンデンス分析
コレスポンデンス分析(対応分析:Multiple Correspondence Analysis)とは、多変量解析法の一つで、アンケート結果のクロス集計表など、行と列からなるデータの項目間の関係を散布図のかたちで可視化する手法です。
APPENDIX