Statistics/Descriptive

記述統計

Descriptive Statistics

記述統計とは、収集したデータを要約（平均、分散などを計算）して対象の特徴・性質を語る統計のことで、２変数の相関を求めたり、クロス集計表を作成したりと、多変量のデータを扱う作業もこれに含まれます。また、データを分かりやすく記述するという意味では、グラフや表を作成したり、グラフや表からから様々な特徴・性質を抽出する作業も記述統計の役割になります。なお、記述統計は、推測統計より古くからあるもので、標本と母集団を同一視して考えます。推測統計の登場後は、古典統計といわれるようにもなりました。

↑

統計量

↑

記述統計における統計量

得られたデータに何らかの計算を行って得られる値を統計量と言います。例えば、平均や分散は代表的な統計量で、具体的な計算について以下の節で順次紹介します。

↑

代表値（measure of central tendency）

データの分布の特徴を表す値

平均（mean）
データの総和をデータ数で割った値。もっとも一般的な代表値。
\[ \bar{x} = \frac{1}{n}( x_1 + x_2 +・・+ x_n) = \frac{1}{n}\sum_{i=1}^{n} x_i\]

中央値（median）
データの大きさの順に並べたときにちょうど中央にくる値*1。

最頻値（mode）
度数分布において最も高い度数を示す値。

↑

散布度 (dispersion)

データの散らばりぐあいを表す値

分散（population variance）
偏差平方和をデータ数で割った値。対象を母集団とする前提です。
\[ s^2 = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2 \]

標準偏差（standard deviation）
標準偏差は、分散のルートをとった値。引数を母集団全体であると見なして、母集団の標準偏差を求めます。
\[ s = \sqrt{ s^2 } \]

平均偏差
偏差（平均からの差）の絶対値の平均。データ全体の平均値に対する個々のデータの絶対偏差の平均を求めます。
\[ md = \frac{1}{n}\sum_{i=1}^{n} |x_i -\bar{x}| \]

四分位点
四分位点とはデータを昇順に並べたときに 25%, 75% の位置の値です。ボックスプロット（箱髭図）では、箱の上辺・底辺がこれに該当します。

↑

参考：Excelでの関数表記

平均（mean）
```
=AVERAGE(範囲)
```

中央値（median）
```
=MEDIAN(範囲)　
```

最頻値（mode）
```
=MODE(範囲)
```

分散（population variance）
```
=VAR.P(範囲)
```

標準偏差（standard deviation）
```
=STDEV.P(範囲)
```

平均偏差
```
=AVEDEV(範囲)
```

付記：Excel の関数名について
- XXXX.P（Population）
  データを母集団とみなしてそのまま計算した値
- XXXX.S（Sample）
  データをサンプルとみなして母集団の値を推定した値

PAGES

↑

GUIDE

↑

DATA

*1 例えば、平均年収という数字は、実感とは合いません。理由は「一部の大富豪が平均値を押し上げる」ためで、年収のような数字を代表するには、中央値の方が実感に近いものになります。近年の日本全体の平均年収は445万、中央値は396万で、大きな開きがあります。

Last-modified: 2023-10-05 (木) 15:25:53