LogoMark.png

データサイエンス/02 のバックアップ(No.6)


第2回 統計分析1

データサイエンス/2023?

CONTENTS




はじめに


基礎的用語の確認

記述統計と推測統計

統計には、大きく以下の2つのタイプがあります。

一般に、集団の性質を知るために全てのデータを取ることは不可能であるため、無作為に抽出した「標本から全体を推測する」ことが重要になります。

母集団と標本

関心の対象となる集団の全体を母集団、母集団から(無作為に)取り出された一部を標本(サンプル)と言います。

変数

統計学では、共通の測定手法で得られた同じ性質をもつデータ値のことを変数と言います。例えば、身長、体重、成績(点数)などは変数です。

変数は、量的変数質的変数の大きく2つに分類されます。

量的変数 ( 定量的データ, 離散データ / 連続データ)

質的変数(定性的データ, カテゴリーデータ )

独立変数と従属変数

統計分析では、「何か」の操作が「別の何か」に影響するか(因果関係)、あるいは、「何か」と「別の何か」が連動するか(相関関係)・・など、物事の関係性を分析します。この「何か」のことを一般に「変数」と呼びます。

例えば、「鉛筆の軸の太さの違いで、文字の書きやすさが変わるのか」といったことを実験的に確かめたい場合、「太さ」が独立変数で、「書きやすさ」が従属変数となります。

重要なことは、「ああすればこうなる」という原因と結果の関係、あるいは「ああであればこうである」という2者の相関関係を、いかにシャープに検証するかということです。言葉の定義、条件設定、外的要因の制御、科学的な実験では、これらがきちんと設定されていることが大切です。



要約統計量(記述統計量)

標本の性質を要約するための統計量を「要約統計量」といいます。

代表値(measure of central tendency)

データの分布の特徴を表す値

散布度 (dispersion)

データの散らばりぐあいを表す値

参考

演習2|平均・分散・標準偏差

サンプルデータの準備

要約統計量(記述統計量)の計算

平均や分散等の基本統計量を計算してみましょう。

学科サイトで学科サイトにリンク掲載