Descriptive Statistics
記述統計とは、収集したデータを要約(平均、分散などを計算)して対象の特徴・性質を語る統計のことで、2変数の相関を求めたり、クロス集計表を作成したりと、多変量のデータを扱う作業もこれに含まれます。また、データを分かりやすく記述するという意味では、グラフや表を作成したり、グラフや表からから様々な特徴・性質を抽出する作業も記述統計の役割になります。なお、記述統計は、推測統計より古くからあるもので、標本と母集団を同一視して考えます。推測統計の登場後は、古典統計といわれるようにもなりました。
得られたデータに何らかの計算を行って得られる値を統計量と言います。例えば、平均や分散は代表的な統計量で、具体的な計算について以下の節で順次紹介します。
データの分布の特徴を表す値
データの散らばりぐあいを表す値
=AVERAGE(範囲)
=MEDIAN(範囲)
=MODE(範囲)
=VAR.P(範囲)
=STDEV.P(範囲)
=AVEDEV(範囲)
共分散とは「国語の点数 X」と「数学の点数 Y」のような2組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値です。
共分散の値から、2組のデータについて以下のような説明ができます。
2つの変数の間の関係を測る指標で、「身長が高い人は体重が大きい」、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。
スプレッドシート(EXCEL)では、以下のようにして求められます。とても簡単ですが「あれとこれとには連動関係がある」ということを示すには強い味方です。
=CORREL(範囲1, 範囲2) 注)PEARSON(範囲1, 範囲2)でも同じ結果が得られます。
言葉で書く方がわかりやすいかも・・
で、数値からわかる2つの変数の関係は、共分散のそれと同じなのですが、相関係数は「変数のスケール変換に対して不変である」という性質があって、以下のように値を理解することができます。
集計には大きく単純集計とクロス集計の2つがあります。単純集計(GT:Grand Tota)は、アンケートの回答者数全体の実数や比率のことで、集計の基本となります。例えば「◯◯が好きですか?」という質問を200人行った結果、はい:110人、いいえ:50人、どちらとも言えない:40人・・といった集計が単純集計です。しかし、それがどんな属性をもった集団にもあてはまるとは限りません(例えば、学部によって傾向に違いがあるもしれない)。そこで、数(比率)の違いを「属性」別に見えるように集計するのがクロス集計です。
以下、3X4(3行4列)のクロス集計表の事例です。ちなみに太字部分を観測度数、縦横の合計欄に記載された各カテゴリの合計を周辺度数と言います。
◯◯好き | 文学部 | 経済学部 | 工学部 | 芸術学部 | 合計 |
はい | 20 | 30 | 35 | 25 | 110 |
いいえ | 20 | 10 | 5 | 15 | 50 |
どちらとも言えない | 10 | 15 | 10 | 5 | 40 |
合計 | 50 | 55 | 50 | 45 | 200 |
期待度数(以下の表の太字部分)とは、縦横の周辺度数の積➗総度数で求められる値です(例えば、文学部の「はい」の期待度数は 50x110/200 = 27.5 となります)。これは「学部によって回答の傾向はかわらない」という帰無仮説に従って、周辺度数の値をもとに予想される観測値を逆算した値となります。
◯◯好き | 文学部 | 経済学部 | 工学部 | 芸術学部 | 合計 |
はい | 27.5 | 30.25 | 27.5 | 24.75 | 110 |
いいえ | 12.5 | 13.75 | 12.5 | 11.25 | 50 |
どちらとも言えない | 10 | 11 | 10 | 9 | 40 |
合計 | 50 | 55 | 50 | 45 | 200 |
このような表をつくって観測度数と期待度数を比較することで、学部にる好き嫌いの傾向の違いがわかります。ちなみに、その違いが統計的に有意なものであるか否かを検定する方法として、カイ二乗検定(独立性の検定)があります。
#image(): File not found: "crosstab.jpg" at page "Statistics/Descriptive"
スプレッドシートでは、ピボットテーブルの挿入 で簡単に実現できます(右図参照)。
シート名 ! 表の左上のセル座標 例)シート1!D2> 表の枠組みができます。