#author("2024-09-17T15:39:42+09:00;2023-10-05T15:25:37+09:00","default:inoue.ko","inoue.ko") #author("2024-09-30T16:31:26+09:00;2023-10-05T15:25:37+09:00","default:inoue.ko","inoue.ko") *クロス集計 Crosstab ~ 集計には大きく''単純集計''と''クロス集計''の2つがあります。単純集計(GT:Grand Tota)は、アンケートの回答者数全体の実数や比率のことで、集計の基本となります。例えば「◯◯が好きですか?」という質問を200人行った結果、はい:110人、いいえ:50人、どちらとも言えない:40人・・といった集計が単純集計です。しかし、それがどんな属性をもった集団にもあてはまるとは限りません(例えば、学部によって傾向に違いがあるもしれない)。そこで、数(比率)の違いを「属性」別に見えるように集計するのがクロス集計です。 ~ ***観測事例 以下、3X4(3行4列)のクロス集計表の事例です。ちなみに太字部分を''観測度数''、縦横の合計欄に記載された各カテゴリの合計を''周辺度数''と言います。 |◯◯好き|文学部|経済学部|工学部|芸術学部|合計|h |はい|''20''|''30''|''35''|''25''|110| |いいえ|''20''|''10''|''5''|''15''|50| |どちらとも言えない|''10''|''15''|''10''|''5''|40| |合計|50|55|50|45|200| RIGHT:&small(クロス集計表(観測値)); ~ ***期待度数 期待度数とは「属性によらず回答の比率は同じ」と仮定した場合の想定値で「縦横の周辺度数の積➗総度数」で求められます。以下の表は「学部が異なっても回答の傾向はかわらない」という帰無仮説に従って、周辺度数の値から各項目の値を逆算した想定値(つまり期待度数)を太字で記載しています( 例えば、文学部の「はい」の期待度数は 50 x 110/200 = 27.5 )。 |◯◯好き|文学部|経済学部|工学部|芸術学部|合計|h |はい|''27.5''|''30.25''|''27.5''|''24.75''|110| |いいえ|''12.5''|''13.75''|''12.5''|''11.25''|50| |どちらとも言えない|''10''|''11''|''10''|''9''|40| |合計|50|55|50|45|200| RIGHT:&small(クロス集計表(期待度数)); このような表をつくって観測度数と期待度数を比較することで、学部にる好き嫌いの傾向の違いがわかります。 -文学部は全体の傾向と比較すると、実際の観測では「いいえ」が多い -工学部は全体の傾向と比較すると、実際の観測では「はい」が多い ちなみに、その違いが統計的に有意なものであるか否かを検定する方法として、__[[カイ二乗検定>Statistics/χ-Squared-test]]__(独立性の検定)があります。 ~ ***スプレッドシートでクロス集計を行う事例 #image(crosstab.jpg,right,30%) スプレッドシートでは、''ピボットテーブルの挿入'' で簡単に実現できます(右図参照)。 -はじめに、元になるデータを用意してください。 -列見出しを含むデータの範囲を選択します。 -挿入>ピボットテーブル --新規のシート あるいは、既存のシート を選択 --サンプルのように同じシート上に表を追加する場合は、以下のように・・ シート名 ! 表の左上のセル座標 例)シート1!D2 > 表の枠組みができます。 -サイドパネルの [行] の横にある [追加] をクリックして行項目を選択 -サイドパネルの [列] の横にある [追加] をクリックして列項目を選択 -サイドパネルの [値] の横にある [追加] をクリックして列項目を選択 -以上で、各セルに集計結果が表示されます。 -以下、実際にクロス集計を行ったサンプルです。 __[[クロス集計の事例(SpreadSheet)>https://docs.google.com/spreadsheets/d/1rUKajO1qXBke4MFIbSfJ7O2coI6yNCdFaP1N4ylbumk/edit?usp=sharing]]__ ~ ~ ~