データサイエンス/13 のバックアップ(No.23)

第13回様々な手法の紹介

全11課題の .ipnb ファイルを1月9日（金）までに・・
- すべてのリンクが正しく張られているか再確認して下さい。
- エラー等の放置がないよう再確認して下さい。
- 科目履修の方は、すべてのノートの冒頭に学籍番号または氏名を記載しておいて下さい（JABEEの関係で保管が必要です）。

リンクの確認（今すぐ）
- 現時点でリンクが未設定の部分がある方、今すぐノートへのリンクを掲載して下さい（ノート自体がない方は、先に当該演習回のノートを作ってリンクを張って下さい。内容は後から記述・・で構いません）。
- 科目履修の方は、共有シート上の自身のリンクが正しいことを確認して下さい。シートは本日この後ロックします。

量的データ：売り上げ・得点・血圧などの数的データ
- 各変数の変量の分布、平均・中央値・散布度などが関心の対象
- 異なる条件下で変数の平均値に統計的に有意な差があるか等も関心の対象
- ２つの変数をタテ・ヨコにとった散布図でデータ間の相関が見える

ニューラルネットワークは、教師あり・分類 の代表的な手法のひとつで、今話題のディープラーニングはその応用にあたります。

一定数のアンケート調査結果があれば、入力データ（特徴量）が、どのカテゴリに属するかを分類する「診断系AI」をつくることができます。

例えば、企画、開発、営業、総合という４つの職種タイプがあると仮定して、あなたがどのタイプであるかを診断するAIをつくるとします。

まずは、実際にそれぞれの現場で長く働いている人（なるべく多く）に、複数項目の数段階評価アンケートに回答してもらいます（Data Collection）。
- アンケートの項目（◯◯が好き・・などの程度を数段階）＞特徴量
- 回答者の実際の所属（企画 / 開発 / 営業 / 総合）＞正解ラベル

世の中にある「性格診断AI」のようなものは、こんな手順で出来ています。

説明変数 X と目的変数 y との間にある関係を求める、つまり y = f(X) となる関数 f を求める 教師あり・回帰 の代表的な手法です。

k-means法は、教師なし・クラスタリングの代表的な手法のひとつで、サンプルをグループ分けする目的で使用します。

付記：データサイエンスが作り出す「概念」のウソについて・・
- Disorder（無秩序・周縁的・ビョーキ）と Disease（疾患）は別物
- 操作的診断（バイオマーカーなし）の弊害
  よくある「20人に１人の割合で存在します」という話は、20人に１人を「めったにおこらないこと（５％有意水準）」として異常と位置付ける診断基準が設けられているからです。実態として存在しているのではなく、統計的にその存在を「喚起」している・・ということではないかと・・