第2回 統計分析1
データサイエンス/2023?
CONTENTS
はじめに
基礎的用語の確認
記述統計と推測統計
統計には、大きく以下の2つのタイプがあります。
- 記述統計:得られたデータのみに注目し、その性質を知る
例:3年A組と3年B組の成績を比較する > 全数調査
- 推測統計:標本(サンプル)から、発生元となる母集団の性質を推測する
例:高血圧の人を対象に新薬の効果を検証する > 標本調査
一般に、集団の性質を知るために全てのデータを取ることは不可能であるため、無作為に抽出した「標本から全体を推測する」ことが重要になります。
母集団と標本
関心の対象となる集団の全体を母集団、母集団から(無作為に)取り出された一部を標本(サンプル)と言います。
- 母集団(Population)
関心の対象となる集団全体のことを「母集団」といい、さらに「有限母集団」と「無限母集団」の区別があります。例えば「日本に住む成人男性」は、その数が有限であることから有限母集団で、一方「さいころを投げて出る目のデータ」などは無限に試行を繰り返すことができることから無限母集団となります。
- 標本(Sample)
母集団の状態を推測するために「抽出」された一部の集団のことを「標本」といいます。関心の対象は母集団なので理想は全数調査ですが、多くの場合、母集団は非常に大きいだけでなく時間とともに変動する存在で、完全に把握することはできません。そこで母集団から抽出した標本に対して統計的解析を行なって母集団を予測するというのが、統計の標準的な手法=推測統計となります。
変数
統計学では、共通の測定手法で得られた同じ性質をもつデータ値のことを変数と言います。例えば、身長、体重、成績(点数)などは変数です。
- データが身長だけの場合を「1変数のデータ」、身長と体重の2つを含むデータであれば「2変数のデータ」と言います。
- 変数の数を 次元 と呼ぶこともあります。例えば、英語の得点と数学の得点、2つのデータがあれば、横軸を英語、縦軸を数学とした2次元の平面上に個々のデータをプロットすることができます。3次元(3変数)までであれば、変数間の相関を視覚的に把握することができます*1。
変数は、量的変数と質的変数の大きく2つに分類されます。
量的変数 ( 定量的データ, 離散データ / 連続データ)
- 比率尺度(ratio scale)同一性・順序性・加法性・等比性
原点(0)が定まっていて、間隔にも比率にも意味があるもので、和差積商の計算が自由にできるものです。
例)身長、体重、金額、絶対温度など
- 間隔尺度(interval scale)同一性・順序性・加法性
測定対象の差を等間隔の目盛りで評価するもので、その和や差には意味がありますが、比率には意味はありません。
例)知能指数、摂氏の温度、満足度(非常によい:4,よい:3,悪い:2,非常に悪い:1 などで、差項目間の間隔が「均等」とみなされる場合、例えば評定値 4と3の差 と評定値3と3の差が等間隔とみななされる場合)*2。
質的変数(定性的データ, カテゴリーデータ )
- 順序尺度(ordinal scale)同一性・順序性
順序には意味があるが、その間隔には意味がない数値を割り当てたもので、大小の比較は可能ですが、その間隔や比率には意味はありません。
例)ミネラルウォーターの売上BEST10(商品を順に1位、2位、3位・・と割り当てる場合など)、満足度(非常によい:4,よい:3,悪い:2,非常に悪い:1 などで、項目間の間隔が不均等とみなされる場合)
- 名義尺度(nominal scale)同一性
対象を分類するために番号を割り当てたもので、等しいか否かにのみ意味があって、番号の大小には意味のない尺度です。
例)血液型(A型:1,B型:2,・・・,O型:4)
独立変数と従属変数
統計分析では、「何か」の操作が「別の何か」に影響するか(因果関係)、あるいは、「何か」と「別の何か」が連動するか(相関関係)・・など、物事の関係性を分析します。この「何か」のことを一般に「変数」と呼びます。
- 独立変数 実験者が操作する変数(原因)。
- 従属変数 測定される変数(結果)。
例えば、「鉛筆の軸の太さの違いで、文字の書きやすさが変わるのか」といったことを実験的に確かめたい場合、「太さ」が独立変数で、「書きやすさ」が従属変数となります。
重要なことは、「ああすればこうなる」という原因と結果の関係、あるいは「ああであればこうである」という2者の相関関係を、いかにシャープに検証するかということです。言葉の定義、条件設定、外的要因の制御、科学的な実験では、これらがきちんと設定されていることが大切です。
要約統計量(記述統計量)
標本の性質を要約するための統計量を「要約統計量」といいます。
代表値(measure of central tendency)
データの分布の特徴を表す値
- 中央値(median):データを大きさの順に並べたときに中央にくる値。
- 最頻値(mode):度数分布において最も高い度数を示す値。
散布度 (dispersion)
データの散らばりぐあいを表す値
- 標準偏差(standard deviation):分散のルートをとった値。
- 四分位点:データを昇順に並べたときに、25%, 75% の位置にくる値。
参考
演習2|平均・分散・標準偏差
サンプルデータの準備
- GoogleDrive > マイドライブ > DataScience に、ダウンロードした基礎データをアップロードして下さい。
- アップしたファイルをダブルクリックすると、ファイルがGoogleスプレッドシートで開かれます。
- メニュー > ファイル > 「Googleスプレッドシートとして保存」としてから利用することを推奨します。
要約統計量(記述統計量)の計算
平均や分散等の基本統計量を計算してみましょう。
- 元データは、全国の集計行と都道府県の47行あります。
- 一番上の「全国」の行を削除、あるいは色分けして、間違って計算対象に含めないように処理して下さい。
- 列が多くて(横に長くて)作業しづらい場合は、適当に削除して構いません。
- 計算式は、表の下に追加して下さい。
学科サイトで学科サイトにリンク掲載