データサイエンス/03 のバックアップソース(No.12)

#author("2023-10-02T12:34:23+09:00;2023-10-02T12:15:53+09:00","default:inoue.ko","inoue.ko")
*第３回 統計解析２
[[データサイエンス/2023]]｜[[受講生一覧>https://design.kyusan-u.ac.jp/socialdesign/?%E3%83%87%E3%83%BC%E3%82%BF%E3%82%B5%E3%82%A4%E3%82%A8%E3%83%B3%E3%82%B9]]｜[[汎用シート>https://docs.google.com/spreadsheets/d/1g-6TyzeQg3md55l9SGnqN-USBsoCNYOwSDDUOKVBJu8/edit?usp=sharing]]

~


***CONTENTS
#contents2_1
~
~

**はじめに
前回、要約統計量について

-SSDSE-Eの表にある「総計」と、実際の合計が合わない件
総計部分と47都道府県のデータは、元資料が異なるようです

-計算式の範囲を間違えている方多数
--計算対象となる範囲は47都道府県＝47行になっている必要があります
--標準偏差の値は、分散の値のルートになっているはずです
--参考：Google検索で計算させる方法 ＞ 検索フォームに以下の形式
 ２乗：xxxxx^2
 ルート：sqrt(xxxxxxxx)

-コンピュータ（AIも含めて）は、自動的に計算結果を出してくれますが・・
--''意味を理解せずに使っていると、結果がおかしいことに気づきません。''
--''便利な道具は、同時に大きなリスクを伴うことを忘れないで下さい。''
~
~

**前回補足演習｜セルの相対指定と絶対指定
~

***セルの相対指定：表記例 A2
 複製時に参照セルの相対的な位置関係が保たれます
-例えば C2 のセルに「自身の左隣：B2」を参照する数式があるとします。
 = B2 * 100 
-C2のセル（の関数）を C3, D4 にコピーすると、以下のように相対的な位置関係を保つかたちで数式が変化します。
 C3のセル　= B3 * 100
 D4のセル　= C4 * 100
~

***セルの絶対指定：表記例 $A$2,  B$5, $C5
 複製時に参照セルの位置が固定されます
-例えば C2のセルに「自身の左隣：B2」を絶対参照する数式があるとします。
 = $B$2 * 100 
-この場合、数式を C3, D4 にコピーしても、数式は変化しません。
 C3のセル　= $B$2 * 100 
 D4のセル　= $B$2 * 100
~

***相対指定・絶対指定の利用例
前回の復習も兼ねて「偏差値」を計算するサンプルで、相対指定・絶対指定の使い分けを体験してみましょう。

-以下のシートにサンプルがあります。データ部分のみコピーして、計算部分（黄色のアミかけ部分）を自身で実装してみて下さい。
__[[偏差値の計算サンプル>https://docs.google.com/spreadsheets/d/1hzFHeAqr_ww2tKLg1HljtSnUofTpcXtiTumtmhbjNsQ/edit?usp=sharing]]__

-データは、学生ID（通し番号）と 得点が並んでいるだけです。
-表の上部の適当なセルに、平均と標準偏差を求めて下さい。
-各レコード（各学生）の得点に右に「偏差値」が出るようにします。
-数式の入力は一箇所、あとはオートフィルで埋めます。
~

***解説
この種の計算とオートフィル（あるいは複製）では、単純に式を書くと、平均値と標準偏差の参照セルの位置が相対的にズレてしまいます。得点のセルは、常に「自分の左」という相対的な位置にありますが、平均と標準偏差は、参照データのある場所が決まっているので「絶対的な位置」を参照する必要があります。

-偏差値を求める計算式は以下。$ はセルの絶対指定を意味します。
 =（ 得点のセル - $平均値のセル）/ $標準偏差のセル * 10 + 50

-サンプルでは以下のように書いています。
 =(B6-$B$3)/$C$3 * 10 + 50

-この例では縦方向にオートフィルするので、参照先の行位置が固定されていれば、列は相対指定でも構いません。よって以下の式でも結果は同じです。
 =(B6-B$3)/C$3 * 10 + 50
~
~

**クロス集計
集計には大きく''単純集計''と''クロス集計''の2つがあります。単純集計（GT：Grand Tota）は、アンケートの回答者数全体の実数や比率のことで、集計の基本となります。例えば「◯◯は好きですか？」という質問を200人行った結果、はい：110人、いいえ：50人、どちらとも言えない：40人・・といった集計が単純集計です。しかし、それがどんな属性をもった集団にもあてはまるとは限りません（例えば、学部によって傾向に違いがあるもしれない）。そこで、数（比率）の違いを「属性」別に見えるように集計するのがクロス集計です。
~

***観測事例
以下、３X４（３行４列）のクロス集計表の事例です。ちなみに太字部分を''観測度数''、縦横の合計欄に記載された各カテゴリの合計を''周辺度数''と言います。

|◯◯好き|文学部|経済学部|工学部|芸術学部|合計|h
|はい|''20''|''30''|''35''|''25''|110|
|いいえ|''20''|''10''|''5''|''15''|50|
|どちらとも言えない|''10''|''15''|''10''|''5''|40|
|合計|50|55|50|45|200|
RIGHT:&small(クロス集計表（観測値）);
~

***期待度数
期待度数（以下の表の太字部分）とは、縦横の周辺度数の積➗総度数で求められる値です（例えば、文学部の「はい」の期待度数は 50x110/200 = 27.5  となります）。これは「学部によって回答の傾向はかわらない」という帰無仮説に従って、周辺度数の値をもとに予想される観測値を逆算した値となります。

|◯◯好き|文学部|経済学部|工学部|芸術学部|合計|h
|はい|''27.5''|''30.25''|''27.5''|''24.75''|110|
|いいえ|''12.5''|''13.75''|''12.5''|''11.25''|50|
|どちらとも言えない|''10''|''11''|''10''|''9''|40|
|合計|50|55|50|45|200|
RIGHT:&small(クロス集計表（期待度数）);

このような表をつくって観測度数と期待度数を比較することで、学部にる好き嫌いの傾向の違いがわかります。
//ちなみに、その違いが統計的に有意なものであるか否かを検定する方法として、__[[カイ二乗検定>Statistics/χ-Squared-test]]__（独立性の検定）があります。

~
~

**演習３｜クロス集計
***新規スプレッドシートを作成
-GoogleDrive > マイドライブ > DataScience に、新規のスプレッドシートを作成して下さい。＞ ファイル名：クロス集計
-以下のサンプルを参考に、同様のデータを作成、あるいは、Web上のサンプルを利用・改変するなどして下さい。
~

***サンプル
#image()
以下、実際にクロス集計を行ったサンプルです。
__[[クロス集計の事例（SpreadSheet）>https://docs.google.com/spreadsheets/d/1rUKajO1qXBke4MFIbSfJ7O2coI6yNCdFaP1N4ylbumk/edit?usp=sharing]]__
~

***スプレッドシートでクロス集計を行う方法
''ピボットテーブルの挿入'' で簡単に実現できます。
-列見出しを含むデータの範囲を選択します。
-挿入＞ピボットテーブル
--新規のシート あるいは、既存のシート を選択
--サンプルのように同じシート上に表を追加する場合は、以下のように・・
 シート名 ! 表の左上のセル座標
 例）シート1!D2
＞ 表の枠組みができます。
-サイドパネルの [行] の横にある [追加] をクリックして行項目を選択
-サイドパネルの [列] の横にある [追加] をクリックして列項目を選択
-サイドパネルの [値] の横にある [追加] をクリックして列項目を選択
-以上で、各セルに集計結果が表示されます。
~
~



***学科サイトにリンク掲載
-1. Spreadsheet を開いた状態で、右上の「共有」をクリック
-2. 共有設定を変更して、以下のように表示される状態にします。
 このリンクを知っているインターネット上の全員が閲覧できます。
-3. 「リンクをコピー」をクリックして、そのアドレスを、以下の形式で、学科サイトにリンク掲載して下さい。
 -[[クロス集計の事例>https://docs.google.com/spreadsheets/・・=sharing]]
-4. 以下のようになればOKです。
https://design.kyusan-u.ac.jp/socialdesign/?JohnSmith/DataScience
~
~
~
~

~
~