LogoMark.png

データサイエンス/02

第2回 統計分析1

データサイエンス/2023?受講生一覧汎用シート

CONTENTS




基礎的用語の確認

記述統計と推測統計

統計には、大きく以下の2つのタイプがあります。

一般に、集団の性質を知るために全てのデータを取ることは不可能であるため、無作為に抽出した「標本から全体を推測する」ことが重要になります。

母集団と標本

関心の対象となる集団の全体を母集団、母集団から(無作為に)取り出された一部を標本(サンプル)と言います。

変数

統計学では、共通の測定手法で得られた同じ性質をもつデータ値のことを変数と言います。例えば、身長、体重、成績(点数)などは変数です。

変数は、量的変数質的変数の大きく2つに分類されます。

量的変数 ( 定量的データ, 離散データ / 連続データ)

質的変数(定性的データ, カテゴリーデータ )

独立変数と従属変数

統計分析では、「何か」の操作が「別の何か」に影響するか(因果関係)、あるいは、「何か」と「別の何か」が連動するか(相関関係)・・など、物事の関係性を分析します。この「何か」のことを一般に「変数」と呼びます。

例えば、「鉛筆の軸の太さの違いで、文字の書きやすさが変わるのか」といったことを実験的に確かめたい場合、「太さ」が独立変数で、「書きやすさ」が従属変数となります。

重要なことは、「ああすればこうなる」という原因と結果の関係、あるいは「ああであればこうである」という2者の相関関係を、いかにシャープに検証するかということです。言葉の定義、条件設定、外的要因の制御、科学的な実験では、これらがきちんと設定されていることが大切です。



要約統計量(記述統計量)

標本の性質を要約するための統計量を「要約統計量」といいます。

代表値(measure of central tendency)

データの分布の特徴を表す値

散布度 (dispersion)

データの散らばりぐあいを表す値

参考

データの分布について

分布と代表値の選び方について

成績・身長・体重・血圧など、統計で用いる分布モデルといえば、正規分布が一般的ですが、世の中には「べき分布」のように、これとは異なる歪んだ分布も多く存在します。そのようなケースでは、代表値には「平均」ではなく「中央値」や「最頻値」を使う方がベターです。例えば「年収」などは、べき分布の形をとるので「平均年収」を計算すると、我々の感覚に合わない高い値が出ます。この場合は、「中央値」の方が実感に近い値となります

偏差値について

平均 μ、標準偏差を σ とすると、データ \(x\) の 偏差値は以下で求まります。

\[\frac{( x - μ ) }{σ} \times 10 + 50\]




演習2|平均・分散・標準偏差

サンプルデータの準備

要約統計量(記述統計量)の計算

平均や分散等の基本統計量を計算してみましょう。

演習サンプル

以下、実際に要約統計量を計算したサンプルです。
要約統計量の計算(SpreadSheet)

スプレッドシートにおける統計関数

学科サイトで学科サイトにリンク掲載

PAGES

GUIDE

DATA


*1 変数が多い場合は、変数間の組み合わせをすべて調べるか、「次元落とし(例えば、国・数・英・理を、文系科目と理系科目にまとめる)」を行ってその関係を可視化するなどの方法を採ります。
*2 そもそも、こうした印象評価の段階的な数字は、等間隔である保証はできず、本来であれば順序尺度として扱うものですが、実際の研究では、これを間隔尺度として、統計ソフト等で分析にかけることが多いようです。
Last-modified: 2023-09-25 (月) 13:29:37