第2回 統計分析1
データサイエンス/2024|受講生一覧|汎用シート
CONTENTS
はじめに
基礎的用語の確認
記述統計と推測統計
統計には、大きく以下の2つのタイプがあります。
- 記述統計:得られたデータのみに注目し、その性質を知る
例:3年A組と3年B組の成績を比較する > 全数調査
- 推測統計:標本(サンプル)から、発生元となる母集団の性質を推測する
例:高血圧の人を対象に新薬の効果を検証する > 標本調査
一般に、集団の性質を知るために全てのデータを取ることは不可能であるため、無作為に抽出した「標本から全体を推測する」ことが重要になります。
母集団と標本
関心の対象となる集団の全体を母集団、母集団から(無作為に)取り出された一部を標本(サンプル)と言います。
- 母集団(Population)
関心の対象となる集団全体のことを「母集団」といい、さらに「有限母集団」と「無限母集団」の区別があります。例えば「日本に住む成人男性」は、その数が有限であることから有限母集団で、一方「さいころを投げて出る目のデータ」などは無限に試行を繰り返すことができることから無限母集団となります。
- 標本(Sample)
母集団の状態を推測するために「抽出」された一部の集団のことを「標本」といいます。関心の対象は母集団なので理想は全数調査ですが、多くの場合、母集団は非常に大きいだけでなく時間とともに変動する存在で、完全に把握することはできません。そこで母集団から抽出した標本に対して統計的解析を行なって母集団を予測するというのが、統計の標準的な手法=推測統計となります。
変数
統計学では、共通の測定手法で得られた同じ性質をもつデータ値のことを変数と言います。例えば、身長、体重、成績(点数)などは変数です。
- データが身長だけの場合を「1変数のデータ」、身長と体重の2つを含むデータであれば「2変数のデータ」と言います。
- 変数の数を 次元 と呼ぶこともあります。例えば、英語の得点と数学の得点、2つのデータがあれば、横軸を英語、縦軸を数学とした2次元の平面上に個々のデータをプロットすることができます。3次元(3変数)までであれば、変数間の相関を視覚的に把握することができます*1。
変数は、量的変数と質的変数の大きく2つに分類されます。
量的変数 ( 定量的データ, 離散データ / 連続データ)
- 比率尺度(ratio scale)同一性・順序性・加法性・等比性
原点(0)が定まっていて、間隔にも比率にも意味があるもので、和差積商の計算が自由にできるものです。
例)身長、体重、金額、絶対温度など
- 間隔尺度(interval scale)同一性・順序性・加法性
測定対象の差を等間隔の目盛りで評価するもので、その和や差には意味がありますが、比率には意味はありません。
例)知能指数、摂氏の温度、満足度(非常によい:4,よい:3,悪い:2,非常に悪い:1 などで、差項目間の間隔が「均等」とみなされる場合、例えば評定値 4と3の差 と評定値3と3の差が等間隔とみななされる場合)*2。
質的変数(定性的データ, カテゴリーデータ )
- 順序尺度(ordinal scale)同一性・順序性
順序には意味があるが、その間隔には意味がない数値を割り当てたもので、大小の比較は可能ですが、その間隔や比率には意味はありません。
例)ミネラルウォーターの売上BEST10(商品を順に1位、2位、3位・・と割り当てる場合など)、満足度(非常によい:4,よい:3,悪い:2,非常に悪い:1 などで、項目間の間隔が不均等とみなされる場合)
- 名義尺度(nominal scale)同一性
対象を分類するために番号を割り当てたもので、等しいか否かにのみ意味があって、番号の大小には意味のない尺度です。
例)血液型(A型:1,B型:2,・・・,O型:4)
独立変数と従属変数
統計分析では、「何か」の操作が「別の何か」に影響するか(因果関係)、あるいは、「何か」と「別の何か」が連動するか(相関関係)・・など、物事の関係性を分析します。この「何か」のことを一般に「変数」と呼びます。
- 独立変数 実験者が操作する変数(原因)。
- 従属変数 測定される変数(結果)。
例えば、「鉛筆の軸の太さの違いで、文字の書きやすさが変わるのか」といったことを実験的に確かめたい場合、「太さ」が独立変数で、「書きやすさ」が従属変数となります。
重要なことは、「ああすればこうなる」という原因と結果の関係、あるいは「ああであればこうである」という2者の相関関係を、いかにシャープに検証するかということです。言葉の定義、条件設定、外的要因の制御、科学的な実験では、これらがきちんと設定されていることが大切です。
要約統計量(記述統計量)
標本の性質を要約するための統計量を「要約統計量」といいます。
代表値(measure of central tendency)
データの分布の特徴を表す値
- 中央値(median):データを大きさの順に並べたときに中央にくる値。
- 最頻値(mode):度数分布において最も高い度数を示す値。
散布度 (dispersion)
データの散らばりぐあいを表す値
- 標準偏差(standard deviation):分散のルートをとった値。
- 四分位点:データを昇順に並べたときに、25%, 75% の位置にくる値。
参考
データの分布について
分布と代表値の選び方について
成績・身長・体重・血圧など、統計で用いる分布モデルといえば、正規分布が一般的ですが、世の中には「べき分布」のように、これとは異なる歪んだ分布も多く存在します。そのようなケースでは、代表値には「平均」ではなく「中央値」や「最頻値」を使う方がベターです。例えば「年収」などは、べき分布の形をとるので「平均年収」を計算すると、我々の感覚に合わない高い値が出ます。この場合は、「中央値」の方が実感に近い値となります。
偏差値について
平均 μ、標準偏差を σ とすると、データ
\(x\)
の 偏差値は以下で求まります。
\[\frac{( x - μ ) }{σ} \times 10 + 50\]
- 平均 μ の位置が偏差値 50 です。
- 平均 μ より σ だけ右の位置が偏差値 60になります。
演習2|平均・分散・標準偏差
サンプルデータの準備
- GoogleDrive > マイドライブ > DataScience に、ダウンロードした基礎データをアップロードして下さい。
- アップしたファイルをダブルクリックすると、ファイルがGoogleスプレッドシートで開かれます。
- メニュー > ファイル > 「Googleスプレッドシートとして保存」としてから利用することを推奨します。
要約統計量(記述統計量)の計算
平均や分散等の基本統計量を計算してみましょう。
- 元データには、全国の集計行と都道府県の47行ありますが、一番上の「全国」の行を削除、あるいは色分けするなどして、間違って計算対象に含めないように処理して下さい。
- 列が多く(横に長く)作業しづらい場合は、興味のある列のみ残して、その他の列は適当に削除して構いません。
- 要約統計量の計算は、表の下の方(沖縄の行よりも下)で行なって下さい。
- 補足
- 行・列の固定(ウインドウの分割)
- データの整列(ソーティング、昇順・降順)
スプレッドシートにおける統計関数
- 平均|Average
=AVERAGE( 範囲 )
- 中央値|Median
=MEDIAN( 範囲 )
- 分散|Variance
=VARP( 範囲 )
- 標準偏差|Standard Deviation
=STDEVP( 範囲 )
- 参考:分散を計算する関数には、VARP と VARS の区別があります。ここでは47都道府県のデータがすべてなので、VARP(population:母集団)を使いましたが、得られたデータをサンプルとして母集団の分散を推定する場合は「不偏分散」という別の計算を行います。その場合には VARS(Sample:標本)の方を使います。STDEVP と STDEVS の違いも同様です。
演習サンプル
以下、実際に要約統計量を計算したサンプルです。
要約統計量の計算(SpreadSheet)
学科サイトで学科サイトにリンク掲載
付記
- SSDSE-Eの表にある「総計」と、実際の合計が合わない件
> 総計部分と47都道府県のデータは、元資料が異なるようです
- コンピュータ(AIも含めて)は、自動的に計算結果を出してくれますが・・
- 意味が理解できていないと、結果の間違いに気づきません。
- 便利な道具には大きなリスクを伴うことを常に意識する必要があります。
補足演習|セルの相対指定と絶対指定
平均と標準偏差がわかると、各データの「偏差値」を知ることができます。計算式を書く際の「セルの相対指定と絶対指定」という概念と合わせて、その求め方を確認します(体験するだけでOKです。学科サイトへの掲載は任意)。
セルの相対指定:表記例 A2
複製時に参照セルの相対的な位置関係が保たれます
セルの絶対指定:表記例 $A$2, B$5, $C5
複製時に参照セルの位置が固定されます
利用例|偏差値の計算
- 以下のシートにサンプルがあります。データ部分のみコピーして、計算部分(黄色のアミかけ部分)を自身で実装してみて下さい。
偏差値の計算サンプル
- データは、学生ID(通し番号)と 得点が並んでいるだけです。
- 表の上部の適当なセルに、平均と標準偏差を求めて下さい。
- 各レコード(各学生)の得点に右に「偏差値」が出るようにします。
- 数式の入力は一箇所、あとはオートフィルで埋めます。
解説
この種の計算とオートフィル(あるいは複製)では、単純に式を書くと、平均値と標準偏差の参照セルの位置が相対的にズレてしまいます。得点のセルは、常に「自分の左」という相対的な位置にありますが、平均と標準偏差は、参照データのある場所が決まっているので「絶対的な位置」を参照する必要があります。
- この例では縦方向にオートフィルするので、参照先の行位置が固定されていれば、列は相対指定でも構いません。よって以下の式でも結果は同じです。
=(B6-B$3)/C$3 * 10 + 50