第3回 統計解析2
CONTENTS
はじめに
前回の演習についての補足です。
- SSDSE-Eの表にある「総計」と、実際の合計が合わない件
総計部分と47都道府県のデータは、元資料が異なるようです
- 計算式の範囲を間違えているケースが多数見られます
- 計算対象となる範囲は47都道府県=47行になっている必要があります
- 標準偏差の値は、分散の値のルートになっているはずです
- 参考:Google検索で計算をチェックする方法 > 検索フォームに以下の形式
2乗:xxxxx^2 ルート:sqrt(xxxxxxxx)
- コンピュータ(AIも含めて)は、自動的に計算結果を出してくれますが・・
- 意味が理解できていないと、結果の間違いに気づきません。
- 便利な道具には大きなリスクを伴うことを常に意識する必要があります。
- 正規分布と社会の構造について
補足演習|セルの相対指定と絶対指定
平均と標準偏差がわかると、各データの「偏差値」を知ることができます。計算式を書く際の「セルの相対指定と絶対指定」という概念と合わせて、その求め方を確認します(体験するだけでOKです。学科サイトへの掲載は任意)。
セルの相対指定:表記例 A2
複製時に参照セルの相対的な位置関係が保たれます
- 例えば C2 のセルに「自身の左隣:B2」を参照する数式があるとします。
= B2 * 100
- C2のセル(の関数)を C3, D4 にコピーすると、以下のように相対的な位置関係を保つかたちで数式が変化します。
C3のセル = B3 * 100 D4のセル = C4 * 100
セルの絶対指定:表記例 $A$2, B$5, $C5
複製時に参照セルの位置が固定されます
- 例えば C2のセルに「自身の左隣:B2」を絶対参照する数式があるとします。
= $B$2 * 100
- この場合、数式を C3, D4 にコピーしても、数式は変化しません。
C3のセル = $B$2 * 100 D4のセル = $B$2 * 100
相対指定・絶対指定の利用例|偏差値の計算
- 以下のシートにサンプルがあります。データ部分のみコピーして、計算部分(黄色のアミかけ部分)を自身で実装してみて下さい。
偏差値の計算サンプル
- データは、学生ID(通し番号)と 得点が並んでいるだけです。
- 表の上部の適当なセルに、平均と標準偏差を求めて下さい。
- 各レコード(各学生)の得点に右に「偏差値」が出るようにします。
- 数式の入力は一箇所、あとはオートフィルで埋めます。
解説
この種の計算とオートフィル(あるいは複製)では、単純に式を書くと、平均値と標準偏差の参照セルの位置が相対的にズレてしまいます。得点のセルは、常に「自分の左」という相対的な位置にありますが、平均と標準偏差は、参照データのある場所が決まっているので「絶対的な位置」を参照する必要があります。
- 偏差値を求める計算式は以下。$ はセルの絶対指定を意味します。
=( 得点のセル - $平均値のセル)/ $標準偏差のセル * 10 + 50
- サンプルでは以下のように書いています。
=(B6-$B$3)/$C$3 * 10 + 50
- この例では縦方向にオートフィルするので、参照先の行位置が固定されていれば、列は相対指定でも構いません。よって以下の式でも結果は同じです。
=(B6-B$3)/C$3 * 10 + 50
相関
統計分析では、個々のカテゴリ項目の代表値や散布度の把握と並んで、項目間の連動関係を見出す作業も重要です。例えば成績一覧表から「数学の点数が高い学生は物理の点数も高い」など、項目間に連動が見られる場合を「相関がある」と言います。
共分散
はじめに共分散から説明します。共分散とは「国語の点数 X」と「数学の点数 Y」のような2組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値です。
- 共分散の値が正:X が大きいときに Y も大きくなる傾向がある
- 共分散の値が 0: X と Y には関係がない
- 共分散の値が負:X が大きくなると Y が小さくなる傾向がある
相関係数
2つの変数の間の関係を測る指標で、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数 r が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。
- \(r\) は -1.0 から +1.0 までのいずれかの値をとる
-
\(| r |\)
が 1.0 に近いほど相関が強く、0に近いほど相関が弱い
レポート等で相関の有無について語る場合、一般的な目安は以下です。 - | r | = 0.7~1.0 かなり強い相関がある
- | r | = 0.4~0.7 やや相関あり
- | r | = 0.2~0.4 弱い相関あり
- | r | = 0~0.2 ほとんど相関なし
相関関係と因果関係について
私たちが身の回りの観察から見出す物事の「関係」には、「身長が高い人は体重も大きい」というタイプの相関関係(共変動)と、「気温が上がると清涼飲料水の売上が上がる」というタイプの因果関係とがあります。
データ解析が見出すのは「相関」
一般に、大量のデータにもとづく統計的な解析や機械学習から得られるのは「相関関係」であって因果関係ではありません。相関関係(共変動)というのは因果関係の前提に過ぎないので、判断や方針決定には注意が必要です。
経験的に観察された共変動は、因果関係の必要条件だが十分条件ではない
Edward Tufte
誤謬に注意
統計処理によって何らかの関係が見出された場合も、それを結論づける前に、そこに以下のような誤謬*1がないか注意深く検討することが必要です。
- 擬似相関(第3の要因が共通原因となっている)
「チョコレートの摂取量」と「ノーベル賞の受賞者数」に正の相関
経済的に豊かであることが両者の共通要因「小学生の身長」と「論理的思考力」に正の相関
学年が上がることが両者の共通要因
- 因果関係の逆転
交番の数が多い地域ほど、犯罪件数が多い
犯罪件数が多い地域だから交番が多く設置された猫が顔を洗うと雨が降る
雨が降る前の湿度上昇が、センサーであるひげを拭う行為を誘発
演習3|相関係数
サンプルデータの準備
- 教育用標準データセット|SSDSEにある「SSDSE-基本素材(SSDSE-E)」を利用します。以下からダウンロードして下さい。
- GoogleDrive > マイドライブ > DataScience に、ダウンロードした基礎データをアップロードして下さい。
- アップしたファイルをダブルクリックすると、ファイルがGoogleスプレッドシートで開かれます。
- メニュー > ファイル > 「Googleスプレッドシートとして保存」としてから利用することを推奨します。
相関係数の計算
項目間の相関係数を計算してみましょう。
- 元データは、全国の集計行と都道府県の47行あります。
- 一番上の「全国」の行を削除、あるいは色分けして、間違って計算対象に含めないように処理して下さい。
- あなたの興味関心にもとづいて、いくつかの項目のペアを選んで下さい。
- 列を移動して、ペアとなる列が横並びになるようにして下さい。
- ペアの右に空の列を挿入して、その一番上の行に、相関係数を求める式を記述して下さい。Excel でも GoogleSpreadsheet でも、関数式は同じです。
=CORREL(範囲1, 範囲2) 例 =CORREL(C4:C50,D4:D50)
- 列のペアを複数(数は任意)つくって、いろいろ試してみて下さい。
- 「◯◯の値が大きな県は、△△の値も大きい」といった知見が得られると、面白い・・となるでしょう。
付記:サンプルデータのように比較可能な項目が多い場合は、すべての項目間について一括で「相関行列」を作るのが一般的です。「相関行列」は Python を使うと簡単に得られるので(後の授業で紹介・体験します)、ここでは手動で簡単に体験するにとどめます。
演習サンプル
以下、実際に相関係数を計算したサンプルです。
相関係数の計算(SpreadSheet)
参考情報
学科サイトで学科サイトにリンク掲載
- 1. Spreadsheet を開いた状態で、右上の「共有」をクリック
- 2. 共有設定を変更して、以下のように表示される状態にします。
このリンクを知っているインターネット上の全員が閲覧できます。
- 3. 「リンクをコピー」をクリックして、そのアドレスを、以下の形式で、学科サイトにリンク掲載して下さい。
-[[相関係数の計算事例>https://docs.google.com/spreadsheets/・・=sharing]]
- 4. 以下のようになればOKです。
https://design.kyusan-u.ac.jp/socialdesign/?JohnSmith/DataScience