集計には大きく単純集計とクロス集計の2つがあります。単純集計(GT:Grand Tota)は、アンケートの回答者数全体の実数や比率のことで、集計の基本となります。例えば「◯◯が好きですか?」という質問を200人行った結果、はい:110人、いいえ:50人、どちらとも言えない:40人・・といった集計が単純集計です。しかし、それがどんな属性をもった集団にもあてはまるとは限りません(例えば、学部によって傾向に違いがあるもしれない)。そこで、数(比率)の違いを「属性」別に見えるように集計するのがクロス集計です。
◯◯が好き | 文学部 | 経済学部 | 工学部 | 芸術学部 | 合計 |
はい | 20 | 30 | 35 | 25 | 110 |
いいえ | 20 | 10 | 5 | 15 | 50 |
どちらとも言えない | 10 | 15 | 10 | 5 | 40 |
合計 | 50 | 55 | 50 | 45 | 200 |
このような表をつくると、学部によって、好き嫌いの傾向に違いがあることがわかります。ちなみに、その違いが統計的に優位なものであるか否かを検定する方法として、カイ二乗検定(独立性の検定)があります。
統計分析では、個々のカテゴリ項目の代表値や散布度の把握と並んで、項目間の連動関係を見出す作業も重要です。例えば成績一覧表から「数学の点数が高い学生は物理の点数も高い」など、項目間に連動が見られる場合を「相関がある」と言います。
はじめに共分散から説明します。共分散とは「国語の点数 X」と「数学の点数 Y」のような2組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値です。
2つの変数の間の関係を測る指標で、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数 r が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。
レポート等で相関の有無について語る場合、一般的な目安は以下です。
項目間の相関係数を計算してみましょう。
=CORREL(範囲1, 範囲2) 例 =CORREL(C4:C50,D4:D50)
付記:サンプルデータのように比較可能な項目が多い場合は、すべての項目間について一括で「相関行列」を作るのが一般的です。「相関行列」は Python を使うと簡単に得られるので(後の授業で紹介・体験します)、ここでは手動で簡単に体験するにとどめます。
このリンクを知っているインターネット上の全員が閲覧できます。
-[[相関係数の計算事例>https://docs.google.com/spreadsheets/・・=sharing]]