LogoMark.png

データサイエンス/03 のバックアップソース(No.5)

#author("2023-09-01T12:20:35+09:00;2023-09-01T12:02:55+09:00","default:inoue.ko","inoue.ko")
*第3回 統計解析2
[[データサイエンス/2023]]

~

***CONTENTS
#contents2_1
~
~


**相関
//統計処理では、個々の項目の代表値や散布度の把握と並んで、項目間の関係を見出す作業も重要です。Python ではこれを簡単に出力することができます。
//
//-共分散
//共分散とは「国語の点数 X」と「数学の点数 Y」のような2組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値。
//#mathjax( s_{xy} = \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y} ) )
//--共分散の値が正:X が大きいときに Y も大きくなる傾向がある
//--共分散の値が 0: X と Y には関係がない
//--共分散の値が負:X が大きくなると Y が小さくなる傾向がある
//
//-相関係数
2つの変数の間の関係を測る指標で、「身長が高い人は体重が大きい」、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数 r が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。
//#mathjax( r = \frac{(xとyの共分散) }{ (xの標準偏差) \times (yの標準偏差) } )
//--&mathjax(r); は -1.0 から +1.0 までのいずれかの値をとる
//--&mathjax(| r |); が 1.0 に近いほど相関が強く、0に近いほど相関が弱い

レポート等で相関の有無について語る場合、一般的な目安は以下です。
-| r | = 0.7~1.0  かなり強い相関がある
-| r | = 0.4~0.7  やや相関あり
-| r | = 0.2~0.4  弱い相関あり
-| r | = 0~0.2   ほとんど相関なし
~
//~

//**クロス集計
//2つないし3つの情報に限定して、データの分析や集計を行なう方法。 縦軸と横軸に項目を割り振って、項目間の相互関係を視覚的に見やすくしたものです。アンケート調査の手法としては、ポピュラーなものの一つです。
//参考:[[GoogleImage:クロス集計]]
//~

-詳細はこちら >__[[Statistics/Descriptive]]__
~
~

**演習3|相関係数
***サンプルデータの準備
-[[教育用標準データセット|SSDSE>https://www.nstac.go.jp/SSDSE/]]にある「SSDSE-基本素材(SSDSE-E)」を利用します。以下からダウンロードして下さい。
--https://www.nstac.go.jp/sys/files/SSDSE-E-2023.xlsx
--データの解説:https://www.nstac.go.jp/sys/files/kaisetsu-E-2023.pdf

-GoogleDrive > マイドライブ > DataScience に、ダウンロードした基礎データをアップロードして下さい。
-アップしたファイルをダブルクリックすると、ファイルがGoogleスプレッドシートで開かれます。
-''メニュー > ファイル > 「Googleスプレッドシートとして保存」''としてから利用することを推奨します。
~

***相関係数の計算
項目間の相関係数を計算してみましょう。
-元データは、全国の集計行と都道府県の47行あります。
-一番上の「全国」の行を削除、あるいは色分けして、間違って計算対象に含めないように処理して下さい。
-あなたの興味関心にもとづいて、いくつかの項目のペアを選んで下さい。
-列を移動して、ペアとなる列が横並びになるようにして下さい。
-ペアの右に空の列を挿入して、その一番上の行に、相関係数を求める式を記述して下さい。
-列のペアを複数(数は任意)つくって、いろいろ試してみて下さい。
-「◯◯の値が大きな県は、△△の値も大きい」といった知見が得られると、面白い・・となるでしょう。

付記:サンプルデータのように比較可能な項目が多い場合は、すべての項目間について一括で「相関行列」を作るのが一般的です。「相関行列」は Python を使うと簡単に得られるので(後の授業で紹介・体験します)、ここでは手動で簡単に体験するにとどめます。
~

***参考情報
-[[Googleスプレッドシートで相関係数を求めてグラフ化する方法>https://ponicom.net/correl/]]

~

***学科サイトで学科サイトにリンク掲載
-1. Spreadsheet を開いた状態で、右上の「共有」をクリック
-2. 共有設定を変更して、以下のように表示される状態にします。
 このリンクを知っているインターネット上の全員が閲覧できます。
-3. 「リンクをコピー」をクリックして、そのアドレスを、以下の形式で、学科サイトにリンク掲載して下さい。
 -[[相関係数の計算事例>https://docs.google.com/spreadsheets/・・=sharing]]
-4. 以下のようになればOKです。
https://design.kyusan-u.ac.jp/socialdesign/?JohnSmith/DataScience
~
~
~
~

~
~