LogoMark.png

データサイエンス/04 の変更点


#author("2024-10-07T13:08:37+09:00","default:inoue.ko","inoue.ko")
#author("2024-10-28T18:11:44+09:00;2024-10-07T13:08:37+09:00","default:inoue.ko","inoue.ko")
*第4回 統計解析3
[[データサイエンス/2024]]|[[受講生一覧>https://design.kyusan-u.ac.jp/socialdesign/?%E3%83%87%E3%83%BC%E3%82%BF%E3%82%B5%E3%82%A4%E3%82%A8%E3%83%B3%E3%82%B9]]|[[汎用シート>https://docs.google.com/spreadsheets/d/16-rKwG0foQsE5LM53cMTR2p6rUUpJHem3H6eYlt5jgQ/edit?usp=sharing]]
~


***CONTENTS
#contents2_1
~
~

**はじめに
***前回の補足
-''散布図から見える「データの特徴」について''
相関のある現象では、直感的に散布図の中心を通る直線を想定することができますが、その直線上の点は、2つの変数がとる「平均的な組み合わせ」と見ることができます。例えば、横軸:身長、縦軸:体重としてデータをプロットした散布図では、ある個人のデータが、想定される直線に乗っていれば標準的、直線よりも下にある場合、その人は「痩せている」・・というぐあいに、データの特徴を語ることができます。ちなみに、この直線のことを__[[「回帰直線」>GoogleImage:回帰直線]]__と言います。

-''前処理段階でのデータのコピーミスに注意して下さい''
散布図上で、極端な「外れ値」がある場合は、データの前処理段階でコピーミス等がないか確認して下さい。''元データの一番上の行は「全国の合計」です。コピーミスでこれを先頭の北海道に位置付けてしまうと、すべてのデータが1行ずつズレます。提出課題を確認したところ、このミスが散見されます。北海道だけ外れ値になっている方は、再確認をお願いします。''
 &color(red){スプレッドシートは非常に便利なツールですが、コピーの際に行がズレるというミスは、実際の業務では大事故につながります。データの扱いには十分注意する癖をつけましょう。};
~
~

**クロス集計
集計には大きく''単純集計''と''クロス集計''の2つがあります。単純集計(GT:Grand Tota)は、アンケートの回答者数全体の実数や比率のことで、集計の基本となります。例えば「◯◯は好きですか?」という質問を200人行った結果、はい:110人、いいえ:50人、どちらとも言えない:40人・・といった集計が単純集計です。しかし、それがどんな属性をもった集団にもあてはまるとは限りません(例えば、学部によって傾向に違いがあるもしれない)。そこで、数(比率)の違いを「属性」別に見えるように集計するのがクロス集計です。
~

***観測事例
以下、3X4(3行4列)のクロス集計表の事例です。ちなみに太字部分を''観測度数''、縦横の合計欄に記載された各カテゴリの合計を''周辺度数''と言います。

|◯◯好き|文学部|経済学部|工学部|芸術学部|合計|h
|はい|''20''|''30''|''35''|''25''|110|
|いいえ|''20''|''10''|''5''|''15''|50|
|どちらとも言えない|''10''|''15''|''10''|''5''|40|
|合計|50|55|50|45|200|
RIGHT:&small(クロス集計表(観測値));
~

***期待度数
期待度数とは「属性によらず回答の比率は同じ」と仮定した場合の想定値で「''縦横の周辺度数の積➗総度数''」で求められます。以下の表は「学部が異なっても回答の傾向はかわらない」という帰無仮説に従って、周辺度数の値から各項目の値を逆算した想定値(つまり期待度数)を太字で記載しています( 例えば、文学部の「はい」の期待度数は 50 x 110/200 = 27.5 )。

|◯◯好き|文学部|経済学部|工学部|芸術学部|合計|h
|はい|''27.5''|''30.25''|''27.5''|''24.75''|110|
|いいえ|''12.5''|''13.75''|''12.5''|''11.25''|50|
|どちらとも言えない|''10''|''11''|''10''|''9''|40|
|合計|50|55|50|45|200|
RIGHT:&small(クロス集計表(期待度数));

このような表をつくって観測度数と期待度数を比較することで、学部にる好き嫌いの傾向の違いがわかります。
-文学部は全体の傾向と比較すると、実際の観測では「いいえ」が多い
-工学部は全体の傾向と比較すると、実際の観測では「はい」が多い
//ちなみに、その違いが統計的に有意なものであるか否かを検定する方法として、__[[カイ二乗検定>Statistics/χ-Squared-test]]__(独立性の検定)があります。

~
~

**演習4|クロス集計
***新規スプレッドシートを作成
-GoogleDrive > マイドライブ > DataScience に、新規のスプレッドシートを作成して下さい。> ファイル名:クロス集計
-以下のサンプルを参考に、同様のデータを作成、あるいは、Web上のサンプルを利用・改変するなどして下さい。
~

***サンプル
#image(Statistics/Crosstab/crosstab.jpg,right,30%)
以下、実際にクロス集計を行ったサンプルです。
__[[クロス集計の事例(SpreadSheet)>https://docs.google.com/spreadsheets/d/1rUKajO1qXBke4MFIbSfJ7O2coI6yNCdFaP1N4ylbumk/edit?usp=sharing]]__
~

***スプレッドシートでクロス集計を行う方法
''ピボットテーブルの挿入'' で簡単に実現できます。
-列見出しを含むデータの範囲を選択します。
-挿入>ピボットテーブル
--新規のシート あるいは、既存のシート を選択
--サンプルのように同じシート上に表を追加する場合は、以下のように・・
 シート名 ! 表の左上のセル座標
 例)シート1!D2
> 表の枠組みができます。
-サイドパネルの [行] の横にある [追加] をクリックして行項目を選択
-サイドパネルの [列] の横にある [追加] をクリックして列項目を選択
-サイドパネルの [値] の横にある [追加] をクリックして列項目を選択
-以上で、各セルに集計結果が表示されます。
~
~



***学科サイトにリンク掲載
-1. Spreadsheet を開いた状態で、右上の「共有」をクリック
-2. 共有設定を変更して、以下のように表示される状態にします。
 このリンクを知っているインターネット上の全員が閲覧できます。
-3. 「リンクをコピー」をクリックして、そのアドレスを、以下の形式で、学科サイトにリンク掲載して下さい。
 -[[クロス集計の事例>https://docs.google.com/spreadsheets/・・=sharing]]
-4. 以下のようになればOKです。
https://design.kyusan-u.ac.jp/socialdesign/?JohnSmith/DataScience
~
~
~
~
~
~