スプレッドシートにおけるセルの相対指定と絶対指定について補足します。
複製時に参照セルの相対的な位置関係が保たれます
= B2 * 100
C3のセル = B3 * 100 D4のセル = C4 * 100
複製時に参照セルの位置が固定されます
= $B$2 * 100
C3のセル = $B$2 * 100 D4のセル = $B$2 * 100
前回の復習も兼ねて「偏差値」を計算するサンプルで、相対指定・絶対指定の使い分けを体験してみましょう。
この種の計算とオートフィル(あるいは複製)では、単純に式を書くと、平均値と標準偏差の参照セルの位置が相対的にズレてしまいます。得点のセルは、常に「自分の左」という相対的な位置にありますが、平均と標準偏差は、参照データのある場所が決まっているので「絶対的な位置」を参照する必要があります。
=( 得点のセル - $平均値のセル)/ $標準偏差のセル * 10 + 50
=(B6-$B$3)/$C$3 * 10 + 50
=(B6-B$3)/C$3 * 10 + 50
集計には大きく単純集計とクロス集計の2つがあります。単純集計(GT:Grand Tota)は、アンケートの回答者数全体の実数や比率のことで、集計の基本となります。例えば「◯◯は好きですか?」という質問を200人行った結果、はい:110人、いいえ:50人、どちらとも言えない:40人・・といった集計が単純集計です。しかし、それがどんな属性をもった集団にもあてはまるとは限りません(例えば、学部によって傾向に違いがあるもしれない)。そこで、数(比率)の違いを「属性」別に見えるように集計するのがクロス集計です。
以下、3X4(3行4列)のクロス集計表の事例です。ちなみに太字部分を観測度数、縦横の合計欄に記載された各カテゴリの合計を周辺度数と言います。
◯◯好き | 文学部 | 経済学部 | 工学部 | 芸術学部 | 合計 |
はい | 20 | 30 | 35 | 25 | 110 |
いいえ | 20 | 10 | 5 | 15 | 50 |
どちらとも言えない | 10 | 15 | 10 | 5 | 40 |
合計 | 50 | 55 | 50 | 45 | 200 |
期待度数(以下の表の太字部分)とは、縦横の周辺度数の積➗総度数で求められる値です(例えば、文学部の「はい」の期待度数は 50x110/200 = 27.5 となります)。これは「学部によって回答の傾向はかわらない」という帰無仮説に従って、周辺度数の値をもとに予想される観測値を逆算した値となります。
◯◯好き | 文学部 | 経済学部 | 工学部 | 芸術学部 | 合計 |
はい | 27.5 | 30.25 | 27.5 | 24.75 | 110 |
いいえ | 12.5 | 13.75 | 12.5 | 11.25 | 50 |
どちらとも言えない | 10 | 11 | 10 | 9 | 40 |
合計 | 50 | 55 | 50 | 45 | 200 |
このような表をつくって観測度数と期待度数を比較することで、学部にる好き嫌いの傾向の違いがわかります。
統計分析では、個々のカテゴリ項目の代表値や散布度の把握と並んで、項目間の連動関係を見出す作業も重要です。例えば成績一覧表から「数学の点数が高い学生は物理の点数も高い」など、項目間に連動が見られる場合を「相関がある」と言います。
はじめに共分散から説明します。共分散とは「国語の点数 X」と「数学の点数 Y」のような2組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値です。
2つの変数の間の関係を測る指標で、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数 r が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。
レポート等で相関の有無について語る場合、一般的な目安は以下です。
私たちが身の回りの観察から見出す物事の「関係」には、「身長が高い人は体重も大きい」というタイプの相関関係(共変動)と、「気温が上がると清涼飲料水の売上が上がる」というタイプの因果関係とがあります。
一般に、大量のデータにもとづく統計的な解析や機械学習から得られるのは「相関関係」であって因果関係ではありません。相関関係(共変動)というのは因果関係の前提に過ぎないので、判断や方針決定には注意が必要です。
経験的に観察された共変動は、因果関係の必要条件だが十分条件ではない
Edward Tufte
統計処理によって何らかの関係が見出された場合も、それを結論づける前に、そこに以下のような誤謬*1がないか注意深く検討することが必要です。
「チョコレートの摂取量」と「ノーベル賞の受賞者数」に正の相関経済的に豊かであることが両者の共通要因
「小学生の身長」と「論理的思考力」に正の相関学年が上がることが両者の共通要因
交番の数が多い地域ほど、犯罪件数が多い犯罪件数が多い地域だから交番が多く設置された
猫が顔を洗うと雨が降る雨が降る前の湿度上昇が、センサーであるひげを拭う行為を誘発
項目間の相関係数を計算してみましょう。
=CORREL(範囲1, 範囲2) 例 =CORREL(C4:C50,D4:D50)
付記:サンプルデータのように比較可能な項目が多い場合は、すべての項目間について一括で「相関行列」を作るのが一般的です。「相関行列」は Python を使うと簡単に得られるので(後の授業で紹介・体験します)、ここでは手動で簡単に体験するにとどめます。
以下、実際に相関係数を計算したサンプルです。
相関係数の計算(SpreadSheet)
このリンクを知っているインターネット上の全員が閲覧できます。
-[[相関係数の計算事例>https://docs.google.com/spreadsheets/・・=sharing]]