LogoMark.png

Statistics/Crosstab のバックアップ(No.2)


クロス集計

Crosstab

集計には大きく単純集計クロス集計の2つがあります。単純集計(GT:Grand Tota)は、アンケートの回答者数全体の実数や比率のことで、集計の基本となります。例えば「◯◯が好きですか?」という質問を200人行った結果、はい:110人、いいえ:50人、どちらとも言えない:40人・・といった集計が単純集計です。しかし、それがどんな属性をもった集団にもあてはまるとは限りません(例えば、学部によって傾向に違いがあるもしれない)。そこで、数(比率)の違いを「属性」別に見えるように集計するのがクロス集計です。

観測事例

以下、3X4(3行4列)のクロス集計表の事例です。ちなみに太字部分を観測度数、縦横の合計欄に記載された各カテゴリの合計を周辺度数と言います。

◯◯好き文学部経済学部工学部芸術学部合計
はい20303525110
いいえ201051550
どちらとも言えない101510540
合計50555045200
クロス集計表(観測値)

期待度数

期待度数とは「属性によらず回答の比率は同じ」と仮定した場合の想定値で「縦横の周辺度数の積➗総度数」で求められます。以下の表は「学部が異なっても回答の傾向はかわらない」という帰無仮説に従って、周辺度数の値から各項目の値を逆算した想定値(つまり期待度数)を太字で記載しています( 例えば、文学部の「はい」の期待度数は 50 x 110/200 = 27.5 )。

◯◯好き文学部経済学部工学部芸術学部合計
はい27.530.2527.524.75110
いいえ12.513.7512.511.2550
どちらとも言えない101110940
合計50555045200
クロス集計表(期待度数)

このような表をつくって観測度数と期待度数を比較することで、学部にる好き嫌いの傾向の違いがわかります。

ちなみに、その違いが統計的に有意なものであるか否かを検定する方法として、カイ二乗検定(独立性の検定)があります。

スプレッドシートでクロス集計を行う事例

crosstab.jpg

スプレッドシートでは、ピボットテーブルの挿入 で簡単に実現できます(右図参照)。