LogoMark.png

データサイエンス/04 の変更点


#author("2023-10-09T12:59:25+09:00;2023-10-09T12:03:40+09:00","default:inoue.ko","inoue.ko")
#author("2023-10-09T13:05:50+09:00;2023-10-09T12:03:40+09:00","default:inoue.ko","inoue.ko")
*第4回 統計解析3
[[データサイエンス/2023]]|[[受講生一覧>https://design.kyusan-u.ac.jp/socialdesign/?%E3%83%87%E3%83%BC%E3%82%BF%E3%82%B5%E3%82%A4%E3%82%A8%E3%83%B3%E3%82%B9]]|[[汎用シート>https://docs.google.com/spreadsheets/d/1g-6TyzeQg3md55l9SGnqN-USBsoCNYOwSDDUOKVBJu8/edit?usp=sharing]]

~

***CONTENTS
#contents2_1
~
~

**はじめに
***Excel 基本操作の補足
-行・列の固定(ウインドウの分割)
-行・列の固定(ウインドウの分割) [[ >https://docs.google.com/spreadsheets/d/16cG8SaEm0kHzgaz2TAH4zNt2qsKak-mB_ArqIqKQVLs/edit?usp=sharing]]
-データの整列(ソーティング、昇順・降順)
~

***前回未達部分の解説と演習
__[[データサイエンス/03]]__(相関係数)

~
~

**クロス集計
集計には大きく''単純集計''と''クロス集計''の2つがあります。単純集計(GT:Grand Tota)は、アンケートの回答者数全体の実数や比率のことで、集計の基本となります。例えば「◯◯は好きですか?」という質問を200人行った結果、はい:110人、いいえ:50人、どちらとも言えない:40人・・といった集計が単純集計です。しかし、それがどんな属性をもった集団にもあてはまるとは限りません(例えば、学部によって傾向に違いがあるもしれない)。そこで、数(比率)の違いを「属性」別に見えるように集計するのがクロス集計です。
~

***観測事例
以下、3X4(3行4列)のクロス集計表の事例です。ちなみに太字部分を''観測度数''、縦横の合計欄に記載された各カテゴリの合計を''周辺度数''と言います。

|◯◯好き|文学部|経済学部|工学部|芸術学部|合計|h
|はい|''20''|''30''|''35''|''25''|110|
|いいえ|''20''|''10''|''5''|''15''|50|
|どちらとも言えない|''10''|''15''|''10''|''5''|40|
|合計|50|55|50|45|200|
RIGHT:&small(クロス集計表(観測値));
~

***期待度数
期待度数(以下の表の太字部分)とは、縦横の周辺度数の積➗総度数で求められる値です(例えば、文学部の「はい」の期待度数は 50x110/200 = 27.5  となります)。これは「学部によって回答の傾向はかわらない」という帰無仮説に従って、周辺度数の値をもとに予想される観測値を逆算した値となります。

|◯◯好き|文学部|経済学部|工学部|芸術学部|合計|h
|はい|''27.5''|''30.25''|''27.5''|''24.75''|110|
|いいえ|''12.5''|''13.75''|''12.5''|''11.25''|50|
|どちらとも言えない|''10''|''11''|''10''|''9''|40|
|合計|50|55|50|45|200|
RIGHT:&small(クロス集計表(期待度数));

このような表をつくって観測度数と期待度数を比較することで、学部にる好き嫌いの傾向の違いがわかります。
//ちなみに、その違いが統計的に有意なものであるか否かを検定する方法として、__[[カイ二乗検定>Statistics/χ-Squared-test]]__(独立性の検定)があります。

~
~

**演習4|クロス集計
***新規スプレッドシートを作成
-GoogleDrive > マイドライブ > DataScience に、新規のスプレッドシートを作成して下さい。> ファイル名:クロス集計
-以下のサンプルを参考に、同様のデータを作成、あるいは、Web上のサンプルを利用・改変するなどして下さい。
~

***サンプル
#image(Statistics/Crosstab/crosstab.jpg,right,30%)
以下、実際にクロス集計を行ったサンプルです。
__[[クロス集計の事例(SpreadSheet)>https://docs.google.com/spreadsheets/d/1rUKajO1qXBke4MFIbSfJ7O2coI6yNCdFaP1N4ylbumk/edit?usp=sharing]]__
~

***スプレッドシートでクロス集計を行う方法
''ピボットテーブルの挿入'' で簡単に実現できます。
-列見出しを含むデータの範囲を選択します。
-挿入>ピボットテーブル
--新規のシート あるいは、既存のシート を選択
--サンプルのように同じシート上に表を追加する場合は、以下のように・・
 シート名 ! 表の左上のセル座標
 例)シート1!D2
> 表の枠組みができます。
-サイドパネルの [行] の横にある [追加] をクリックして行項目を選択
-サイドパネルの [列] の横にある [追加] をクリックして列項目を選択
-サイドパネルの [値] の横にある [追加] をクリックして列項目を選択
-以上で、各セルに集計結果が表示されます。
~
~



***学科サイトにリンク掲載
-1. Spreadsheet を開いた状態で、右上の「共有」をクリック
-2. 共有設定を変更して、以下のように表示される状態にします。
 このリンクを知っているインターネット上の全員が閲覧できます。
-3. 「リンクをコピー」をクリックして、そのアドレスを、以下の形式で、学科サイトにリンク掲載して下さい。
 -[[クロス集計の事例>https://docs.google.com/spreadsheets/・・=sharing]]
-4. 以下のようになればOKです。
https://design.kyusan-u.ac.jp/socialdesign/?JohnSmith/DataScience
~
~
~
~
~
~