データサイエンス/02 のバックアップ(No.11)

第２回統計分析１

データサイエンス/2024?｜受講生一覧｜汎用シート

↑

はじめに

CLノートの入力について

↑

基礎的用語の確認

↑

記述統計と推測統計

統計には、大きく以下の２つのタイプがあります。

記述統計：得られたデータのみに注目し、その性質を知る
例：３年A組と３年B組の成績を比較する＞全数調査
推測統計：標本（サンプル）から、発生元となる母集団の性質を推測する
例：高血圧の人を対象に新薬の効果を検証する＞標本調査

一般に、集団の性質を知るために全てのデータを取ることは不可能であるため、無作為に抽出した「標本から全体を推測する」ことが重要になります。

↑

母集団と標本

関心の対象となる集団の全体を母集団、母集団から（無作為に）取り出された一部を標本（サンプル）と言います。

母集団（Population）
関心の対象となる集団全体のことを「母集団」といい、さらに「有限母集団」と「無限母集団」の区別があります。例えば「日本に住む成人男性」は、その数が有限であることから有限母集団で、一方「さいころを投げて出る目のデータ」などは無限に試行を繰り返すことができることから無限母集団となります。

標本（Sample）
母集団の状態を推測するために「抽出」された一部の集団のことを「標本」といいます。関心の対象は母集団なので理想は全数調査ですが、多くの場合、母集団は非常に大きいだけでなく時間とともに変動する存在で、完全に把握することはできません。そこで母集団から抽出した標本に対して統計的解析を行なって母集団を予測するというのが、統計の標準的な手法＝推測統計となります。

↑

変数

統計学では、共通の測定手法で得られた同じ性質をもつデータ値のことを変数と言います。例えば、身長、体重、成績（点数）などは変数です。

データが身長だけの場合を「１変数のデータ」、身長と体重の２つを含むデータであれば「２変数のデータ」と言います。

変数の数を次元と呼ぶこともあります。例えば、英語の得点と数学の得点、２つのデータがあれば、横軸を英語、縦軸を数学とした２次元の平面上に個々のデータをプロットすることができます。３次元（３変数）までであれば、変数間の相関を視覚的に把握することができます*1。

変数は、量的変数と質的変数の大きく２つに分類されます。

↑

量的変数 ( 定量的データ, 離散データ / 連続データ)

比率尺度（ratio scale）同一性・順序性・加法性・等比性
原点（０）が定まっていて、間隔にも比率にも意味があるもので、和差積商の計算が自由にできるものです。
例）身長、体重、金額、絶対温度など

間隔尺度（interval scale）同一性・順序性・加法性
測定対象の差を等間隔の目盛りで評価するもので、その和や差には意味がありますが、比率には意味はありません。
例）知能指数、摂氏の温度、満足度（非常によい：4，よい：3，悪い：2，非常に悪い：1　などで、差項目間の間隔が「均等」とみなされる場合、例えば評定値４と３の差と評定値３と３の差が等間隔とみななされる場合）*2。

↑

質的変数（定性的データ, カテゴリーデータ )

順序尺度（ordinal scale）同一性・順序性
順序には意味があるが、その間隔には意味がない数値を割り当てたもので、大小の比較は可能ですが、その間隔や比率には意味はありません。
例）ミネラルウォーターの売上BEST10（商品を順に１位、２位、３位・・と割り当てる場合など）、満足度（非常によい：4，よい：3，悪い：2，非常に悪い：1　などで、項目間の間隔が不均等とみなされる場合）

名義尺度（nominal scale）同一性
対象を分類するために番号を割り当てたもので、等しいか否かにのみ意味があって、番号の大小には意味のない尺度です。
例）血液型（Ａ型：1，Ｂ型：2，･･･，O型：4）

↑

独立変数と従属変数

統計分析では、「何か」の操作が「別の何か」に影響するか（因果関係）、あるいは、「何か」と「別の何か」が連動するか（相関関係）・・など、物事の関係性を分析します。実験・調査では、関係する２つの変数を、独立変数と従属変数という用語で区別して扱いいます。

独立変数　実験者が操作する変数（原因）。
従属変数　測定される変数（結果）。

例えば、「鉛筆の軸の太さの違いで、文字の書きやすさが変わるのか」といったことを実験的に確かめたい場合、「太さ」が独立変数で、「書きやすさ」が従属変数となります。

重要なことは、「ああすればこうなる」という原因と結果の関係、あるいは「ああであればこうである」という２者の相関関係を、いかにシャープに検証するかということです。言葉の定義、条件設定、外的要因の制御、科学的な実験では、これらがきちんと設定されていることが大切です。

↑

要約統計量（記述統計量）

標本の性質を要約するための統計量を「要約統計量」といいます。

↑

代表値（measure of central tendency）

データの分布の特徴を表す値

平均（mean）：データの総和をデータ数で割った値。最も一般的。
\[ \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i\]

中央値（median）：データを大きさの順に並べたときに中央にくる値。

最頻値（mode）：度数分布において最も高い度数を示す値。

↑

散布度 (dispersion)

データの散らばりぐあいを表す値

分散（population variance）：偏差平方和をデータ数で割った値。
\[ s^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 \]

標準偏差（standard deviation）：分散のルートをとった値。

四分位点：データを昇順に並べたときに、25%, 75% の位置にくる値。

↑

参考

Statistics/Descriptive

↑

データの分布について

↑

分布と代表値の選び方について

成績・身長・体重・血圧など、統計で用いる分布モデルといえば、正規分布が一般的ですが、世の中には「べき分布」のように、これとは異なる歪んだ分布も多く存在します。そのようなケースでは、代表値には「平均」ではなく「中央値」や「最頻値」を使う方がベターです。例えば「年収」などは、べき分布の形をとるので「平均年収」を計算すると、我々の感覚に合わない高い値が出ます。この場合は、「中央値」の方が実感に近い値となります。

参考：Distribution
参考：Google:べき分布事例

↑

偏差値について

平均 μ、標準偏差を σ とすると、データ $x$ の偏差値は以下で求まります。

\[\frac{( x - μ ) }{σ} \times 10 + 50\]

平均 μ の位置が偏差値 50 です。
平均 μ より σ だけ右の位置が偏差値 60になります。

↑

演習２｜平均・分散・標準偏差

↑

サンプルデータの準備

教育用標準データセット｜SSDSEにある「SSDSE-基本素材（SSDSE-E）」を利用します。以下からダウンロードして下さい。
- https://www.nstac.go.jp/sys/files/SSDSE-E-2024.xlsx
- データの解説：https://www.nstac.go.jp/sys/files/kaisetsu-E-2024.pdf

GoogleDrive > マイドライブ > DataScience に、ダウンロードした基礎データをアップロードして下さい。
アップしたファイルをダブルクリックすると、ファイルがGoogleスプレッドシートで開かれます。
メニュー＞ファイル＞「Googleスプレッドシートとして保存」としてから利用することを推奨します。

↑

要約統計量（記述統計量）の計算

平均や分散等の基本統計量を計算してみましょう。

元データには、全国の集計行と都道府県の47行ありますが、一番上の「全国」の行を削除、あるいは色分けするなどして、間違って計算対象に含めないように処理して下さい。
列が多く（横に長く）作業しづらい場合は、興味のある列のみ残して、その他の列は適当に削除して構いません。
要約統計量の計算は、表の下の方（沖縄の行よりも下）で行なって下さい。

補足
- 行・列の固定（ウインドウの分割）
- データの整列（ソーティング、昇順・降順）

↑

スプレッドシートにおける統計関数

平均｜Average
```
=AVERAGE( 範囲 )
```
中央値｜Median
```
=MEDIAN( 範囲 )
```
分散｜Variance
```
=VARP( 範囲 )
```
標準偏差｜Standard Deviation
```
=STDEVP( 範囲 )
```

参考：分散を計算する関数には、VARP と VARS の区別があります。ここでは47都道府県のデータがすべてなので、VARP（population：母集団）を使いましたが、得られたデータをサンプルとして母集団の分散を推定する場合は「不偏分散」という別の計算を行います。その場合には VARS（Sample：標本）の方を使います。STDEVP と STDEVS の違いも同様です。

↑

演習サンプル

以下、実際に要約統計量を計算したサンプルです。
要約統計量の計算（SpreadSheet）

↑

学科サイトで学科サイトにリンク掲載

1. Spreadsheet を開いた状態で、右上の「共有」をクリック

2. 共有設定を変更して、以下のように表示される状態にします。

このリンクを知っているインターネット上の全員が閲覧できます。

3. 「リンクをコピー」をクリックして、そのアドレスを、以下の形式で、学科サイトにリンク掲載して下さい。
```
-[[要約統計量の計算事例>https://docs.google.com/spreadsheets/・・=sharing]]
```
4. 以下のようになればOKです。
https://design.kyusan-u.ac.jp/socialdesign/?JohnSmith/DataScience

↑

付記

SSDSE-Eの表にある「総計」と、実際の合計が合わない件
＞総計部分と47都道府県のデータは、元資料が異なるようです

計算式の範囲を間違えないよう注意してください。
- 計算対象となる範囲は47都道府県＝47行になっている必要があります
- 標準偏差の値は、分散の値のルートになっているはずです
- 参考：Google検索で計算をチェックする方法＞検索フォームに以下の形式
```
２乗：xxxxx^2
ルート：sqrt(xxxxxxxx)
```

コンピュータ（AIも含めて）は、自動的に計算結果を出してくれますが・・
- 意味が理解できていないと、結果の間違いに気づきません。
- 便利な道具には大きなリスクを伴うことを常に意識する必要があります。

↑

補足演習｜セルの相対指定と絶対指定

平均と標準偏差がわかると、各データの「偏差値」を知ることができます。計算式を書く際の「セルの相対指定と絶対指定」という概念と合わせて、その求め方を確認します（体験するだけでOKです。学科サイトへの掲載は任意）。

↑

セルの相対指定：表記例 A2

複製時に参照セルの相対的な位置関係が保たれます

例えば C2 のセルに「自身の左隣：B2」を参照する数式があるとします。
```
= B2 * 100 
```
C2のセル（の関数）を C3, D4 にコピーすると、以下のように相対的な位置関係を保つかたちで数式が変化します。
```
C3のセル　= B3 * 100
D4のセル　= C4 * 100
```

↑

セルの絶対指定：表記例 $A$2, B$5, $C5

複製時に参照セルの位置が固定されます

例えば C2のセルに「自身の左隣：B2」を絶対参照する数式があるとします。
```
= $B$2 * 100 
```
この場合、数式を C3, D4 にコピーしても、数式は変化しません。
```
C3のセル　= $B$2 * 100 
D4のセル　= $B$2 * 100
```

↑

利用例｜偏差値の計算

以下のシートにサンプルがあります。データ部分のみコピーして、計算部分（黄色のアミかけ部分）を自身で実装してみて下さい。
偏差値の計算サンプル

データは、学生ID（通し番号）と得点が並んでいるだけです。
表の上部の適当なセルに、平均と標準偏差を求めて下さい。
各レコード（各学生）の得点に右に「偏差値」が出るようにします。
数式の入力は一箇所、あとはオートフィルで埋めます。

↑

解説

この種の計算とオートフィル（あるいは複製）では、単純に式を書くと、平均値と標準偏差の参照セルの位置が相対的にズレてしまいます。得点のセルは、常に「自分の左」という相対的な位置にありますが、平均と標準偏差は、参照データのある場所が決まっているので「絶対的な位置」を参照する必要があります。

偏差値を求める計算式は以下。$ はセルの絶対指定を意味します。
```
=（ 得点のセル - $平均値のセル）/ $標準偏差のセル * 10 + 50
```

サンプルでは以下のように書いています。
```
=(B6-$B$3)/$C$3 * 10 + 50
```

この例では縦方向にオートフィルするので、参照先の行位置が固定されていれば、列は相対指定でも構いません。よって以下の式でも結果は同じです。
```
=(B6-B$3)/C$3 * 10 + 50
```

第２回 統計分析１

CONTENTS