LogoMark.png

Statistics/Descriptive のバックアップ(No.8)


記述統計

Descriptive Statistics


記述統計とは、収集したデータを要約(平均、分散などを計算)して対象の特徴・性質を語る統計のことで、2変数の相関を求めたり、クロス集計表を作成したりと、多変量のデータを扱う作業もこれに含まれます。また、データを分かりやすく記述するという意味では、グラフや表を作成したり、グラフや表からから様々な特徴・性質を抽出する作業も記述統計の役割になります。なお、記述統計は、推測統計より古くからあるもので、標本と母集団を同一視して考えます。推測統計の登場後は、古典統計といわれるようにもなりました。



統計量

記述統計における統計量

得られたデータに何らかの計算を行って得られる値を統計量と言います。例えば、平均分散は代表的な統計量で、具体的な計算について以下の節で順次紹介します。

代表値(measure of central tendency)

データの分布の特徴を表す値

散布度 (dispersion)

データの散らばりぐあいを表す値

参考:Excelでの関数表記

共分散

共分散とは「国語の点数 X」と「数学の点数 Y」のような2組の対応するデータについて「X の偏差 × Y の偏差」の平均 を取った値です。

\[ s_{xy} = \frac{1}{n} \sum_{i=1}^{n} (x_{i}-\bar{x})(y_{i}-\bar{y} ) \]

共分散の値から、2組のデータについて以下のような説明ができます。

相関係数

2つの変数の間の関係を測る指標で、「身長が高い人は体重が大きい」、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。

スプレッドシート(EXCEL)では、以下のようにして求められます。とても簡単ですが「あれとこれとには連動関係がある」ということを示すには強い味方です。

=CORREL(範囲1, 範囲2)
注)PEARSON(範囲1, 範囲2)でも同じ結果が得られます。
\[ r = \frac{ \frac{1}{n} \sum_{i=1}^{n}(x_{i} - \bar{x}) (y_{i} - \bar{y}) }{ \sqrt{ \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})^{2} } \cdot \sqrt{ \frac{1}{n} \sum_{i=1}^{n}(y_{i} - \bar{y})^{2}}} = \frac{ s_{xy} }{ s_{x} \cdot s_{y} } \]

言葉で書く方がわかりやすいかも・・

\[ r = \frac{(xとyの共分散) }{ (xの標準偏差) \times (yの標準偏差) } \]

で、数値からわかる2つの変数の関係は、共分散のそれと同じなのですが、相関係数は「変数のスケール変換に対して不変である」という性質があって、以下のように値を理解することができます。

参考:GoogleImage:相関係数



クロス集計

集計には大きく単純集計クロス集計の2つがあります。単純集計(GT:Grand Tota)は、アンケートの回答者数全体の実数や比率のことで、集計の基本となります。例えば「◯◯が好きですか?」という質問を200人行った結果、はい:110人、いいえ:50人、どちらとも言えない:40人・・といった集計が単純集計です。しかし、それがどんな属性をもった集団にもあてはまるとは限りません(例えば、学部によって傾向に違いがあるもしれない)。そこで、数(比率)の違いを「属性」別に見えるように集計するのがクロス集計です。

観測事例

以下、3X4(3行4列)のクロス集計表の事例です。ちなみに太字部分を観測度数、縦横の合計欄に記載された各カテゴリの合計を周辺度数と言います。

◯◯好き文学部経済学部工学部芸術学部合計
はい20303525110
いいえ201051550
どちらとも言えない101510540
合計50555045200
クロス集計表(観測値)

期待度数

期待度数(以下の表の太字部分)とは、縦横の周辺度数の積➗総度数で求められる値です(例えば、文学部の「はい」の期待度数は 50x110/200 = 27.5 となります)。これは「学部によって回答の傾向はかわらない」という帰無仮説に従って、周辺度数の値をもとに予想される観測値を逆算した値となります。

◯◯好き文学部経済学部工学部芸術学部合計
はい27.530.2527.524.75110
いいえ12.513.7512.511.2550
どちらとも言えない101110940
合計50555045200
クロス集計表(期待度数)

このような表をつくって観測度数と期待度数を比較することで、学部にる好き嫌いの傾向の違いがわかります。ちなみに、その違いが統計的に有意なものであるか否かを検定する方法として、カイ二乗検定(独立性の検定)があります。

スプレッドシートでクロス集計を行う事例

#image(): File not found: "crosstab.jpg" at page "Statistics/Descriptive"

スプレッドシートでは、ピボットテーブルの挿入 で簡単に実現できます(右図参照)。