LogoMark.png

データサイエンス/03 のバックアップ(No.12)


第3回 統計解析2

データサイエンス/2023?受講生一覧汎用シート


CONTENTS




はじめに

前回、要約統計量について

前回補足演習|セルの相対指定と絶対指定


セルの相対指定:表記例 A2

複製時に参照セルの相対的な位置関係が保たれます

セルの絶対指定:表記例 $A$2, B$5, $C5

複製時に参照セルの位置が固定されます

相対指定・絶対指定の利用例

前回の復習も兼ねて「偏差値」を計算するサンプルで、相対指定・絶対指定の使い分けを体験してみましょう。

解説

この種の計算とオートフィル(あるいは複製)では、単純に式を書くと、平均値と標準偏差の参照セルの位置が相対的にズレてしまいます。得点のセルは、常に「自分の左」という相対的な位置にありますが、平均と標準偏差は、参照データのある場所が決まっているので「絶対的な位置」を参照する必要があります。

クロス集計

集計には大きく単純集計クロス集計の2つがあります。単純集計(GT:Grand Tota)は、アンケートの回答者数全体の実数や比率のことで、集計の基本となります。例えば「◯◯は好きですか?」という質問を200人行った結果、はい:110人、いいえ:50人、どちらとも言えない:40人・・といった集計が単純集計です。しかし、それがどんな属性をもった集団にもあてはまるとは限りません(例えば、学部によって傾向に違いがあるもしれない)。そこで、数(比率)の違いを「属性」別に見えるように集計するのがクロス集計です。

観測事例

以下、3X4(3行4列)のクロス集計表の事例です。ちなみに太字部分を観測度数、縦横の合計欄に記載された各カテゴリの合計を周辺度数と言います。

◯◯好き文学部経済学部工学部芸術学部合計
はい20303525110
いいえ201051550
どちらとも言えない101510540
合計50555045200
クロス集計表(観測値)

期待度数

期待度数(以下の表の太字部分)とは、縦横の周辺度数の積➗総度数で求められる値です(例えば、文学部の「はい」の期待度数は 50x110/200 = 27.5 となります)。これは「学部によって回答の傾向はかわらない」という帰無仮説に従って、周辺度数の値をもとに予想される観測値を逆算した値となります。

◯◯好き文学部経済学部工学部芸術学部合計
はい27.530.2527.524.75110
いいえ12.513.7512.511.2550
どちらとも言えない101110940
合計50555045200
クロス集計表(期待度数)

このような表をつくって観測度数と期待度数を比較することで、学部にる好き嫌いの傾向の違いがわかります。




演習3|クロス集計

新規スプレッドシートを作成

サンプル

#image(): Usage:([pagename/]attached-file-name[,parameters, ... ][,title])

以下、実際にクロス集計を行ったサンプルです。
クロス集計の事例(SpreadSheet)

スプレッドシートでクロス集計を行う方法

ピボットテーブルの挿入 で簡単に実現できます。

学科サイトにリンク掲載