データサイエンス/03(相関係数)
集計には大きく単純集計とクロス集計の2つがあります。単純集計(GT:Grand Tota)は、アンケートの回答者数全体の実数や比率のことで、集計の基本となります。例えば「◯◯は好きですか?」という質問を200人行った結果、はい:110人、いいえ:50人、どちらとも言えない:40人・・といった集計が単純集計です。しかし、それがどんな属性をもった集団にもあてはまるとは限りません(例えば、学部によって傾向に違いがあるもしれない)。そこで、数(比率)の違いを「属性」別に見えるように集計するのがクロス集計です。
以下、3X4(3行4列)のクロス集計表の事例です。ちなみに太字部分を観測度数、縦横の合計欄に記載された各カテゴリの合計を周辺度数と言います。
◯◯好き | 文学部 | 経済学部 | 工学部 | 芸術学部 | 合計 |
はい | 20 | 30 | 35 | 25 | 110 |
いいえ | 20 | 10 | 5 | 15 | 50 |
どちらとも言えない | 10 | 15 | 10 | 5 | 40 |
合計 | 50 | 55 | 50 | 45 | 200 |
期待度数(以下の表の太字部分)とは、縦横の周辺度数の積➗総度数で求められる値です(例えば、文学部の「はい」の期待度数は 50x110/200 = 27.5 となります)。これは「学部によって回答の傾向はかわらない」という帰無仮説に従って、周辺度数の値をもとに予想される観測値を逆算した値となります。
◯◯好き | 文学部 | 経済学部 | 工学部 | 芸術学部 | 合計 |
はい | 27.5 | 30.25 | 27.5 | 24.75 | 110 |
いいえ | 12.5 | 13.75 | 12.5 | 11.25 | 50 |
どちらとも言えない | 10 | 11 | 10 | 9 | 40 |
合計 | 50 | 55 | 50 | 45 | 200 |
このような表をつくって観測度数と期待度数を比較することで、学部にる好き嫌いの傾向の違いがわかります。
以下、実際にクロス集計を行ったサンプルです。
クロス集計の事例(SpreadSheet)
ピボットテーブルの挿入 で簡単に実現できます。
シート名 ! 表の左上のセル座標 例)シート1!D2> 表の枠組みができます。
このリンクを知っているインターネット上の全員が閲覧できます。
-[[クロス集計の事例>https://docs.google.com/spreadsheets/・・=sharing]]