#author("2024-09-30T15:59:18+09:00;2024-09-30T08:28:31+09:00","default:inoue.ko","inoue.ko") #author("2024-10-28T18:11:54+09:00;2024-09-30T08:28:31+09:00","default:inoue.ko","inoue.ko") *第3回 統計解析2 [[データサイエンス/2024]]|[[受講生一覧>https://design.kyusan-u.ac.jp/socialdesign/?%E3%83%87%E3%83%BC%E3%82%BF%E3%82%B5%E3%82%A4%E3%82%A8%E3%83%B3%E3%82%B9]]|[[汎用シート>https://docs.google.com/spreadsheets/d/16-rKwG0foQsE5LM53cMTR2p6rUUpJHem3H6eYlt5jgQ/edit?usp=sharing]] ~ ***CONTENTS #contents2_1 ~ ~ **はじめに -前回の提出状況の確認 > [[受講生一覧>https://design.kyusan-u.ac.jp/socialdesign/?%E3%83%87%E3%83%BC%E3%82%BF%E3%82%B5%E3%82%A4%E3%82%A8%E3%83%B3%E3%82%B9]] -前回の補足:偏差値の計算例 > __[[偏差値の計算サンプル>https://docs.google.com/spreadsheets/d/1hzFHeAqr_ww2tKLg1HljtSnUofTpcXtiTumtmhbjNsQ/edit?usp=sharing]]__ -__[[大学院生の実験研究について(ご協力のお願い)>https://vision.ip.kyusan-u.ac.jp/art-gs/?%E9%99%B3%E5%B5%90%E6%B8%85/%E3%83%87%E3%82%B6%E3%82%A4%E3%83%B3%E7%89%B9%E5%88%A5%E7%A0%94%E7%A9%B6]]__ ~ ~ **相関 統計分析では、個々のカテゴリ項目の代表値や散布度の把握と並んで、項目間の連動関係を見出す作業も重要です。例えば成績一覧表から「数学の点数が高い学生は物理の点数も高い」など、項目間に連動が見られる場合を「相関がある」と言います。 ~ #image(Statistics/Correlation/correlation.jpg,center, 75%) ~ ***共分散 はじめに「共分散」の概念から説明します。共分散とは「国語の点数 X」と「数学の点数 Y」のような2組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値です。 #mathjax( s_{xy} = \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y} ) ) -共分散の値が正:X が大きいときに Y も大きくなる傾向がある -共分散の値が 0: X と Y には関係がない -共分散の値が負:X が大きくなると Y が小さくなる傾向がある ~ ***相関係数 2つの変数の間の関係を測る指標で、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数 r が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。 #mathjax( r = \frac{(xとyの共分散) }{ (xの標準偏差) \times (yの標準偏差) } ) -&mathjax(r); は -1.0 から +1.0 までのいずれかの値をとる -&mathjax(| r |); が 1.0 に近いほど相関が強く、0に近いほど相関が弱い レポート等で相関の有無について語る場合、一般的な目安は以下です。 -| r | = 0.7~1.0 かなり強い相関がある -| r | = 0.4~0.7 やや相関あり -| r | = 0.2~0.4 弱い相関あり -| r | = 0~0.2 ほとんど相関なし //-詳細はこちら >__[[Statistics/Descriptive]]__ ~ ~ **相関関係と因果関係について 私たちが身の回りの観察から見出す物事の「関係」には、「身長が高い人は体重も大きい」というタイプの相関関係(共変動)と、「気温が上がると清涼飲料水の売上が上がる」というタイプの因果関係とがあります。 ~ ***データ解析が見出すのは「相関」 一般に、大量のデータにもとづく統計的な解析や機械学習から得られるのは「相関関係」であって因果関係ではありません。相関関係(共変動)というのは因果関係の前提に過ぎないので、判断や方針決定には注意が必要です。 経験的に観察された共変動は、因果関係の必要条件だが十分条件ではない &small(Edward Tufte); ~ ***誤謬に注意 統計処理によって何らかの関係が見出された場合も、それを結論づける前に、そこに以下のような誤謬((論証の過程に論理的・形式的な瑕疵があって、その論証が妥当でないこと(簡単に言えば「間違っている」)を誤謬と言います。))がないか注意深く検討することが必要です。 -擬似相関(第3の要因が共通原因となっている) 「チョコレートの摂取量」と「ノーベル賞の受賞者数」に正の相関 経済的に豊かであることが両者の共通要因 「小学生の身長」と「論理的思考力」に正の相関 学年が上がることが両者の共通要因 -因果関係の逆転 交番の数が多い地域ほど、犯罪件数が多い 犯罪件数が多い地域だから交番が多く設置された 猫が顔を洗うと雨が降る 雨が降る前の湿度上昇が、センサーであるひげを拭う行為を誘発 ~ ~ **演習3|相関係数 ***サンプルデータの準備 -[[教育用標準データセット|SSDSE>https://www.nstac.go.jp/use/literacy/ssdse/]]にある「SSDSE-基本素材(SSDSE-E)」を利用します。以下からダウンロードして下さい。 --https://www.nstac.go.jp/sys/files/SSDSE-E-2024.xlsx --データの解説:https://www.nstac.go.jp/sys/files/kaisetsu-E-2024.pdf -GoogleDrive > マイドライブ > DataScience に、ダウンロードした基礎データをアップロードして下さい。 -アップしたファイルをダブルクリックすると、ファイルがGoogleスプレッドシートで開かれます。 -''メニュー > ファイル > 「Googleスプレッドシートとして保存」''としてから利用することを推奨します。 ~ ***相関係数の計算 項目間の相関係数を計算してみましょう。 -元データは、全国の集計行と都道府県の47行あります。 -一番上の「全国」の行を削除、あるいは色分けして、間違って計算対象に含めないように処理して下さい。 -あなたの興味関心にもとづいて、いくつかの項目のペアを選んで下さい。 -列を移動して、ペアとなる列が横並びになるようにして下さい。 -ペアの右に空の列を挿入して、その一番上の行に、相関係数を求める式を記述して下さい。Excel でも GoogleSpreadsheet でも、関数式は同じです。 =CORREL(範囲1, 範囲2) 例 =CORREL(C4:C50,D4:D50) -列のペアを複数(数は任意)つくって、いろいろ試してみて下さい。 -「◯◯の値が大きな県は、△△の値も大きい」といった知見が得られると、面白い・・となるでしょう。 付記:サンプルデータのように比較可能な項目が多い場合は、すべての項目間について一括で「相関行列」を作るのが一般的です。「相関行列」は Python を使うと簡単に得られるので(後の授業で紹介・体験します)、ここでは手動で簡単に体験するにとどめます。 ~ ***演習サンプル 以下、実際に相関係数を計算したサンプルです。 __[[相関係数の計算(SpreadSheet)>https://docs.google.com/spreadsheets/d/1GBojVCJwzAhJVohqVVKMvVI4OZBhyIm8_-pXMO77QWM/edit?usp=sharing]]__ ~ ***学科サイトで学科サイトにリンク掲載 -1. Spreadsheet を開いた状態で、右上の「共有」をクリック -2. 共有設定を変更して、以下のように表示される状態にします。 このリンクを知っているインターネット上の全員が閲覧できます。 -3. 「リンクをコピー」をクリックして、そのアドレスを、以下の形式で、学科サイトにリンク掲載して下さい。 -[[相関係数の計算事例>https://docs.google.com/spreadsheets/・・=sharing]] -4. 以下のようになればOKです。 https://design.kyusan-u.ac.jp/socialdesign/?JohnSmith/DataScience ~ ***付記 -[[Googleスプレッドシートで相関係数を求めてグラフ化する方法>https://ponicom.net/correl/]] ~ ~ ~