LogoMark.png

データサイエンス/02 のバックアップ(No.11)


第2回 統計分析1

データサイエンス/2024受講生一覧汎用シート



CONTENTS




はじめに

基礎的用語の確認

記述統計と推測統計

統計には、大きく以下の2つのタイプがあります。

一般に、集団の性質を知るために全てのデータを取ることは不可能であるため、無作為に抽出した「標本から全体を推測する」ことが重要になります。

母集団と標本

関心の対象となる集団の全体を母集団、母集団から(無作為に)取り出された一部を標本(サンプル)と言います。

変数

統計学では、共通の測定手法で得られた同じ性質をもつデータ値のことを変数と言います。例えば、身長、体重、成績(点数)などは変数です。

変数は、量的変数質的変数の大きく2つに分類されます。

量的変数 ( 定量的データ, 離散データ / 連続データ)

質的変数(定性的データ, カテゴリーデータ )

独立変数と従属変数

統計分析では、「何か」の操作が「別の何か」に影響するか(因果関係)、あるいは、「何か」と「別の何か」が連動するか(相関関係)・・など、物事の関係性を分析します。実験・調査では、関係する2つの変数を、独立変数と従属変数という用語で区別して扱いいます。

例えば、「鉛筆の軸の太さの違いで、文字の書きやすさが変わるのか」といったことを実験的に確かめたい場合、「太さ」が独立変数で、「書きやすさ」が従属変数となります。

重要なことは、「ああすればこうなる」という原因と結果の関係、あるいは「ああであればこうである」という2者の相関関係を、いかにシャープに検証するかということです。言葉の定義、条件設定、外的要因の制御、科学的な実験では、これらがきちんと設定されていることが大切です。



要約統計量(記述統計量)

標本の性質を要約するための統計量を「要約統計量」といいます。

代表値(measure of central tendency)

データの分布の特徴を表す値

散布度 (dispersion)

データの散らばりぐあいを表す値

参考

データの分布について

分布と代表値の選び方について

成績・身長・体重・血圧など、統計で用いる分布モデルといえば、正規分布が一般的ですが、世の中には「べき分布」のように、これとは異なる歪んだ分布も多く存在します。そのようなケースでは、代表値には「平均」ではなく「中央値」や「最頻値」を使う方がベターです。例えば「年収」などは、べき分布の形をとるので「平均年収」を計算すると、我々の感覚に合わない高い値が出ます。この場合は、「中央値」の方が実感に近い値となります

偏差値について

平均 μ、標準偏差を σ とすると、データ \(x\) の 偏差値は以下で求まります。

\[\frac{( x - μ ) }{σ} \times 10 + 50\]




演習2|平均・分散・標準偏差

サンプルデータの準備

要約統計量(記述統計量)の計算

平均や分散等の基本統計量を計算してみましょう。

スプレッドシートにおける統計関数

演習サンプル

以下、実際に要約統計量を計算したサンプルです。
要約統計量の計算(SpreadSheet)

学科サイトで学科サイトにリンク掲載

付記

補足演習|セルの相対指定と絶対指定

平均と標準偏差がわかると、各データの「偏差値」を知ることができます。計算式を書く際の「セルの相対指定と絶対指定」という概念と合わせて、その求め方を確認します(体験するだけでOKです。学科サイトへの掲載は任意)。


セルの相対指定:表記例 A2

複製時に参照セルの相対的な位置関係が保たれます

セルの絶対指定:表記例 $A$2, B$5, $C5

複製時に参照セルの位置が固定されます

利用例|偏差値の計算

解説

この種の計算とオートフィル(あるいは複製)では、単純に式を書くと、平均値と標準偏差の参照セルの位置が相対的にズレてしまいます。得点のセルは、常に「自分の左」という相対的な位置にありますが、平均と標準偏差は、参照データのある場所が決まっているので「絶対的な位置」を参照する必要があります。