データサイエンス/03 のバックアップソース(No.9)

#author("2023-09-26T22:21:15+09:00;2023-09-01T12:02:55+09:00","default:inoue.ko","inoue.ko")
*第３回 統計解析２
[[データサイエンス/2023]]｜[[受講生一覧>https://design.kyusan-u.ac.jp/socialdesign/?%E3%83%87%E3%83%BC%E3%82%BF%E3%82%B5%E3%82%A4%E3%82%A8%E3%83%B3%E3%82%B9]]｜[[汎用シート>https://docs.google.com/spreadsheets/d/1g-6TyzeQg3md55l9SGnqN-USBsoCNYOwSDDUOKVBJu8/edit?usp=sharing]]

~

***CONTENTS
#contents2_1
~
~

**はじめに
スプレッドシートにおけるセルの相対指定と絶対指定について補足します。
~

***セルの相対指定：表記例 A2
 複製時に参照セルの相対的な位置関係が保たれます
-例えば C2 のセルに「自身の左隣：B2」を参照する数式があるとします。
 = B2 * 100 
-C2のセル（の関数）を C3, D4 にコピーすると、以下のように相対的な位置関係を保つかたちで数式が変化します。
 C3のセル　= B3 * 100
 D4のセル　= C4 * 100
~

***セルの絶対指定：表記例 $A$2,  B$5, $C5
 複製時に参照セルの位置が固定されます
-例えば C2のセルに「自身の左隣：B2」を絶対参照する数式があるとします。
 = $B$2 * 100 
-この場合、数式を C3, D4 にコピーしても、数式は変化しません。
 C3のセル　= $B$2 * 100 
 D4のセル　= $B$2 * 100
~

***相対指定・絶対指定の利用例
前回の復習も兼ねて「偏差値」を計算するサンプルで、相対指定・絶対指定の使い分けを体験してみましょう。

-以下のシートにサンプルがあります。データ部分のみコピーして、計算部分（黄色のアミかけ部分）を自身で実装してみて下さい。
__[[偏差値の計算サンプル>https://docs.google.com/spreadsheets/d/1hzFHeAqr_ww2tKLg1HljtSnUofTpcXtiTumtmhbjNsQ/edit?usp=sharing]]__

-データは、学生ID（通し番号）と 得点が並んでいるだけです。
-表の上部の適当なセルに、平均と標準偏差を求めて下さい。
-各レコード（各学生）の得点に右に「偏差値」が出るようにします。
-数式の入力は一箇所、あとはオートフィルで埋めます。
~

***解説
この種の計算とオートフィル（あるいは複製）では、単純に式を書くと、平均値と標準偏差の参照セルの位置が相対的にズレてしまいます。得点のセルは、常に「自分の左」という相対的な位置にありますが、平均と標準偏差は、参照データのある場所が決まっているので「絶対的な位置」を参照する必要があります。

-偏差値を求める計算式は以下。$ はセルの絶対指定を意味します。
 =（ 得点のセル - $平均値のセル）/ $標準偏差のセル * 10 + 50

-サンプルでは以下のように書いています。
 =(B6-$B$3)/$C$3 * 10 + 50

-この例では縦方向にオートフィルするので、参照先の行位置が固定されていれば、列は相対指定でも構いません。よって以下の式でも結果は同じです。
 =(B6-B$3)/C$3 * 10 + 50
~
~

**クロス集計
集計には大きく''単純集計''と''クロス集計''の2つがあります。単純集計（GT：Grand Tota）は、アンケートの回答者数全体の実数や比率のことで、集計の基本となります。例えば「◯◯は好きですか？」という質問を200人行った結果、はい：110人、いいえ：50人、どちらとも言えない：40人・・といった集計が単純集計です。しかし、それがどんな属性をもった集団にもあてはまるとは限りません（例えば、学部によって傾向に違いがあるもしれない）。そこで、数（比率）の違いを「属性」別に見えるように集計するのがクロス集計です。
　
|◯◯好き|文学部|経済学部|工学部|芸術学部|合計|h
|''はい''|20|30|35|25|110|
|''いいえ''|20|10|5|15|50|
|''どちらとも言えない''|10|15|10|5|40|
|''合計''|50|55|50|45|''200''|
RIGHT:&small(クロス集計表);

このような表をつくると、学部によって、好き嫌いの傾向に違いがあることがわかります。ちなみに、その違いが統計的に有意なものであるか否かを検定する方法として、__[[カイ二乗検定>Statistics/χ-Squared-test]]__（独立性の検定）があります。

~
~

**相関
統計分析では、個々のカテゴリ項目の代表値や散布度の把握と並んで、項目間の連動関係を見出す作業も重要です。例えば成績一覧表から「数学の点数が高い学生は物理の点数も高い」など、項目間に連動が見られる場合を「相関がある」と言います。
~

***共分散
はじめに共分散から説明します。共分散とは「国語の点数 X」と「数学の点数 Y」のような２組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値です。
#mathjax( s_{xy} = \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y} ) )
-共分散の値が正：X が大きいときに Y も大きくなる傾向がある
-共分散の値が 0： X と Y には関係がない
-共分散の値が負：X が大きくなると Y が小さくなる傾向がある
~

***相関係数
2つの変数の間の関係を測る指標で、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数 r が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。
#mathjax( r = \frac{(xとyの共分散) }{ (xの標準偏差) \times (yの標準偏差) } )
-&mathjax(r); は -1.0 から +1.0 までのいずれかの値をとる
-&mathjax(| r |); が 1.0 に近いほど相関が強く、0に近いほど相関が弱い
　

レポート等で相関の有無について語る場合、一般的な目安は以下です。
-| r | =　0.7～1.0　　かなり強い相関がある
-| r | =　0.4～0.7　　やや相関あり
-| r | =　0.2～0.4　　弱い相関あり
-| r | =　0～0.2　　　ほとんど相関なし

//-詳細はこちら ＞__[[Statistics/Descriptive]]__
~
~

**相関関係と因果関係について
私たちが身の回りの観察から見出す物事の「関係」には、「身長が高い人は体重も大きい」というタイプの相関関係（共変動）と、「気温が上がると清涼飲料水の売上が上がる」というタイプの因果関係とがあります。
~

***データ解析が見出すのは「相関」
一般に、大量のデータにもとづく統計的な解析や機械学習から得られるのは「相関関係」であって因果関係ではありません。相関関係（共変動）というのは因果関係の前提に過ぎないので、判断や方針決定には注意が必要です。
 経験的に観察された共変動は、因果関係の必要条件だが十分条件ではない
&small(Edward Tufte);
~

***誤謬に注意
統計処理によって何らかの関係が見出された場合も、それを結論づける前に、そこに以下のような誤謬((論証の過程に論理的・形式的な瑕疵があって、その論証が妥当でないこと（簡単に言えば「間違っている」）を誤謬と言います。))がないか注意深く検討することが必要です。

-擬似相関（第３の要因が共通原因となっている）
 「チョコレートの摂取量」と「ノーベル賞の受賞者数」に正の相関
経済的に豊かであることが両者の共通要因
 「小学生の身長」と「論理的思考力」に正の相関
学年が上がることが両者の共通要因

-因果関係の逆転
 交番の数が多い地域ほど、犯罪件数が多い
犯罪件数が多い地域だから交番が多く設置された
 猫が顔を洗うと雨が降る
雨が降る前の湿度上昇が、センサーであるひげを拭う行為を誘発

-偶然
 スマートフォンの普及が、地球温暖化を促進
テクノロジーの進歩と経済活動の拡大という共通の要因、あるいは偶然

//-直接的な関係の存在
// 圧力の上昇が、温度を上昇させる
//両者はもともと直接的な比例関係にあって、独立していない 
~
~


**演習３｜相関係数
***サンプルデータの準備
-[[教育用標準データセット｜SSDSE>https://www.nstac.go.jp/SSDSE/]]にある「SSDSE-基本素材（SSDSE-E）」を利用します。以下からダウンロードして下さい。
--https://www.nstac.go.jp/sys/files/SSDSE-E-2023.xlsx
--データの解説：https://www.nstac.go.jp/sys/files/kaisetsu-E-2023.pdf

-GoogleDrive > マイドライブ > DataScience に、ダウンロードした基礎データをアップロードして下さい。
-アップしたファイルをダブルクリックすると、ファイルがGoogleスプレッドシートで開かれます。
-''メニュー ＞ ファイル ＞ 「Googleスプレッドシートとして保存」''としてから利用することを推奨します。
~

***相関係数の計算
項目間の相関係数を計算してみましょう。
-元データは、全国の集計行と都道府県の47行あります。
-一番上の「全国」の行を削除、あるいは色分けして、間違って計算対象に含めないように処理して下さい。
-あなたの興味関心にもとづいて、いくつかの項目のペアを選んで下さい。
-列を移動して、ペアとなる列が横並びになるようにして下さい。
-ペアの右に空の列を挿入して、その一番上の行に、相関係数を求める式を記述して下さい。Excel でも　GoogleSpreadsheet でも、関数式は同じです。
 =CORREL(範囲１, 範囲２)
 例　 =CORREL(C4:C50,D4:D50)
-列のペアを複数（数は任意）つくって、いろいろ試してみて下さい。
-「◯◯の値が大きな県は、△△の値も大きい」といった知見が得られると、面白い・・となるでしょう。

付記：サンプルデータのように比較可能な項目が多い場合は、すべての項目間について一括で「相関行列」を作るのが一般的です。「相関行列」は Python を使うと簡単に得られるので（後の授業で紹介・体験します）、ここでは手動で簡単に体験するにとどめます。
~

***演習サンプル
以下、実際に相関係数を計算したサンプルです。
__[[相関係数の計算（SpreadSheet）>https://docs.google.com/spreadsheets/d/1GBojVCJwzAhJVohqVVKMvVI4OZBhyIm8_-pXMO77QWM/edit?usp=sharing]]__
~


***参考情報
-[[Googleスプレッドシートで相関係数を求めてグラフ化する方法>https://ponicom.net/correl/]]

~

***学科サイトで学科サイトにリンク掲載
-1. Spreadsheet を開いた状態で、右上の「共有」をクリック
-2. 共有設定を変更して、以下のように表示される状態にします。
 このリンクを知っているインターネット上の全員が閲覧できます。
-3. 「リンクをコピー」をクリックして、そのアドレスを、以下の形式で、学科サイトにリンク掲載して下さい。
 -[[相関係数の計算事例>https://docs.google.com/spreadsheets/・・=sharing]]
-4. 以下のようになればOKです。
https://design.kyusan-u.ac.jp/socialdesign/?JohnSmith/DataScience
~
~
~
~

~
~