LogoMark.png

データサイエンス/02 のバックアップ(No.7)


第2回 統計分析1

データサイエンス/2023?

CONTENTS




はじめに


基礎的用語の確認

記述統計と推測統計

統計には、大きく以下の2つのタイプがあります。

一般に、集団の性質を知るために全てのデータを取ることは不可能であるため、無作為に抽出した「標本から全体を推測する」ことが重要になります。

母集団と標本

関心の対象となる集団の全体を母集団、母集団から(無作為に)取り出された一部を標本(サンプル)と言います。

変数

統計学では、共通の測定手法で得られた同じ性質をもつデータ値のことを変数と言います。例えば、身長、体重、成績(点数)などは変数です。

変数は、量的変数質的変数の大きく2つに分類されます。

量的変数 ( 定量的データ, 離散データ / 連続データ)

質的変数(定性的データ, カテゴリーデータ )

独立変数と従属変数

統計分析では、「何か」の操作が「別の何か」に影響するか(因果関係)、あるいは、「何か」と「別の何か」が連動するか(相関関係)・・など、物事の関係性を分析します。この「何か」のことを一般に「変数」と呼びます。

例えば、「鉛筆の軸の太さの違いで、文字の書きやすさが変わるのか」といったことを実験的に確かめたい場合、「太さ」が独立変数で、「書きやすさ」が従属変数となります。

重要なことは、「ああすればこうなる」という原因と結果の関係、あるいは「ああであればこうである」という2者の相関関係を、いかにシャープに検証するかということです。言葉の定義、条件設定、外的要因の制御、科学的な実験では、これらがきちんと設定されていることが大切です。



要約統計量(記述統計量)

標本の性質を要約するための統計量を「要約統計量」といいます。

代表値(measure of central tendency)

データの分布の特徴を表す値

散布度 (dispersion)

データの散らばりぐあいを表す値

参考

データの分布について

分布と代表値の選び方について

成績・身長・体重・血圧など、統計で用いる分布モデルといえば、正規分布が一般的ですが、世の中には「べき分布」のように、これとは異なる歪んだ分布も多く存在します。そのようなケースでは、代表値には「平均」ではなく「中央値」や「最頻値」を使う方がベターです。例えば「年収」などは、べき分布の形をとるので「平均年収」を計算すると、我々の感覚に合わない高い値が出ます。この場合は、「中央値」の方が実感に近い値となります

偏差値について

平均 μ、標準偏差を σ とすると、データ \(x\) の 偏差値は以下で求まります。

\[\frac{( x - μ ) }{σ} \times 10 + 50\]




演習2|平均・分散・標準偏差

サンプルデータの準備

要約統計量(記述統計量)の計算

平均や分散等の基本統計量を計算してみましょう。

参考要約統計量の計算(SpreadSheet)

スプレッドシートの統計関数

学科サイトで学科サイトにリンク掲載