第4回 統計解析3
はじめに
事務連絡です。第2回の授業で、退出時のタッチを忘れた方が多数。欠席扱いとなっていたので、こちらで修正しています。念の為、K'sLifeをご確認下さい。
前回の復習
- 相関係数の計算対象となるデータについて
参考データ
クロス集計
集計には大きく単純集計とクロス集計の2つがあります。単純集計(GT:Grand Total)は、アンケートの回答者数全体の実数や比率のことで、集計の基本となります。例えば「◯◯は好きですか?」という質問を200人行った結果、はい:110人、いいえ:50人、どちらとも言えない:40人・・といった集計が単純集計です。しかし、それがどんな属性をもった集団にもあてはまるとは限りません(例えば、学部によって傾向に違いがあるもしれない)。そこで、数(比率)の違いを「属性」別に見えるように集計するのがクロス集計です。
観測事例
以下、3X4(3行4列)のクロス集計表の事例です。ちなみに太字部分を観測度数、縦横の合計欄に記載された各カテゴリの合計を周辺度数と言います。
| ◯◯好き | 文学部 | 経済学部 | 工学部 | 芸術学部 | 合計 |
| はい | 20 | 30 | 35 | 25 | 110 |
| いいえ | 20 | 10 | 5 | 15 | 50 |
| どちらとも言えない | 10 | 15 | 10 | 5 | 40 |
| 合計 | 50 | 55 | 50 | 45 | 200 |
クロス集計表(観測値)
期待度数
期待度数とは「属性によらず回答の比率は同じ」と仮定した場合の想定値で「縦横の周辺度数の積➗総度数」で求められます。以下の表は「学部が異なっても回答の傾向はかわらない」という帰無仮説に従って、周辺度数の値から各項目の値を逆算した想定値(つまり期待度数)を太字で記載しています( 例えば、文学部の「はい」の期待度数は 50 x 110/200 = 27.5 )。
| ◯◯好き | 文学部 | 経済学部 | 工学部 | 芸術学部 | 合計 |
| はい | 27.5 | 30.25 | 27.5 | 24.75 | 110 |
| いいえ | 12.5 | 13.75 | 12.5 | 11.25 | 50 |
| どちらとも言えない | 10 | 11 | 10 | 9 | 40 |
| 合計 | 50 | 55 | 50 | 45 | 200 |
クロス集計表(期待度数)
このような表をつくって観測度数と期待度数を比較することで、学部にる好き嫌いの傾向の違いがわかります。
- 文学部は全体の傾向と比較すると、実際の観測では「いいえ」が多い
- 工学部は全体の傾向と比較すると、実際の観測では「はい」が多い
演習4|クロス集計
新規スプレッドシートを作成
- GoogleDrive > マイドライブ > DataScience に、新規のスプレッドシートを作成して下さい。> ファイル名:クロス集計
- 以下のサンプルを参考に、同様のデータを作成、あるいは、Web上のサンプルを利用・改変するなどして下さい。
サンプル
以下、実際にクロス集計を行ったサンプルです。
クロス集計の事例(SpreadSheet)
スプレッドシートでクロス集計を行う方法
ピボットテーブルの挿入 で簡単に実現できます。
- 列見出しを含むデータの範囲を選択します。
- 挿入>ピボットテーブル
- 新規のシート あるいは、既存のシート を選択
- サンプルのように同じシート上に表を追加する場合は、以下のように・・
シート名 ! 表の左上のセル座標 例)シート1!D2
> 表の枠組みができます。
- サイドパネルの [行] の横にある [追加] をクリックして行項目を選択
- サイドパネルの [列] の横にある [追加] をクリックして列項目を選択
- サイドパネルの [値] の横にある [追加] をクリックして列項目を選択
- 以上で、各セルに集計結果が表示されます。
学科サイトにリンク掲載
- 1. Spreadsheet を開いた状態で、右上の「共有」をクリック
- 2. 共有設定を変更して、以下のように表示される状態にします。
このリンクを知っているインターネット上の全員が閲覧できます。
- 3. 「リンクをコピー」をクリックして、そのアドレスを、以下の形式で、学科サイトにリンク掲載して下さい。
-[[クロス集計の事例>https://docs.google.com/spreadsheets/・・=sharing]]
- 4. 以下のようになればOKです。
https://design.kyusan-u.ac.jp/socialdesign/?JohnSmith/DataScience

