Statistics/Descriptive のバックアップ(No.7) - OpenSquareJP

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
Statistics/Descriptive へ行く。
- 1 (2023-01-31 (火) 14:44:04)
- 2 (2023-01-31 (火) 15:15:13)
- 3 (2023-02-02 (木) 15:02:02)
- 4 (2023-02-06 (月) 16:14:39)
- 5 (2023-02-06 (月) 16:14:39)
- 6 (2023-02-06 (月) 16:14:39)
- 7 (2023-10-02 (月) 12:33:16)
- 8 (2023-10-02 (月) 12:33:16)

記述統計

Descriptive Statistics

記述統計とは、収集したデータを要約（平均、分散などを計算）して対象の特徴・性質を語る統計のことで、２変数の相関を求めたり、クロス集計表を作成したりと、多変量のデータを扱う作業もこれに含まれます。また、データを分かりやすく記述するという意味では、グラフや表を作成したり、グラフや表からから様々な特徴・性質を抽出する作業も記述統計の役割になります。なお、記述統計は、推測統計より古くからあるもので、標本と母集団を同一視して考えます。推測統計の登場後は、古典統計といわれるようにもなりました。

↑

統計量

↑

記述統計における統計量

得られたデータに何らかの計算を行って得られる値を統計量と言います。例えば、平均や分散は代表的な統計量で、具体的な計算について以下の節で順次紹介します。

↑

代表値（measure of central tendency）

データの分布の特徴を表す値

平均（mean）
データの総和をデータ数で割った値。もっとも一般的な代表値。
\[ \bar{x} = \frac{1}{n}( x_1 + x_2 +・・+ x_n) = \frac{1}{n}\sum_{i=1}^{n} x_i\]

中央値（median）
データの大きさの順に並べたときにちょうど中央にくる値*1。

最頻値（mode）
度数分布において最も高い度数を示す値。

↑

散布度 (dispersion)

データの散らばりぐあいを表す値

分散（population variance）
偏差平方和をデータ数で割った値。対象を母集団とする前提です。
\[ s^2 = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2 \]

標準偏差（standard deviation）
標準偏差は、分散のルートをとった値。引数を母集団全体であると見なして、母集団の標準偏差を求めます。
\[ s = \sqrt{ s^2 } \]

平均偏差
偏差（平均からの差）の絶対値の平均。データ全体の平均値に対する個々のデータの絶対偏差の平均を求めます。
\[ md = \frac{1}{n}\sum_{i=1}^{n} |x_i -\bar{x}| \]

四分位点
四分位点とはデータを昇順に並べたときに 25%, 75% の位置の値です。ボックスプロット（箱髭図）では、箱の上辺・底辺がこれに該当します。

↑

参考：Excelでの関数表記

平均（mean）
```
=AVERAGE(範囲)
```

中央値（median）
```
=MEDIAN(範囲)　
```

最頻値（mode）
```
=MODE(範囲)
```

分散（population variance）
```
=VAR.P(範囲)
```

標準偏差（standard deviation）
```
=STDEV.P(範囲)
```

平均偏差
```
=AVEDEV(範囲)
```

付記：Excel の関数名について
- XXXX.P（Population）
  データを母集団とみなしてそのまま計算した値
- XXXX.S（Sample）
  データをサンプルとみなして母集団の値を推定した値

↑

共分散

共分散とは「国語の点数 X」と「数学の点数 Y」のような２組の対応するデータについて「X の偏差 × Y の偏差」の平均を取った値です。

\[ s_{xy} = \frac{1}{n} \sum_{i=1}^{n} (x_{i}-\bar{x})(y_{i}-\bar{y} ) \]

共分散の値から、２組のデータについて以下のような説明ができます。

共分散の値が正：X が大きいときに Y も大きくなる傾向がある
共分散の値が 0： X と Y には関係がない
共分散の値が負：X が大きくなると Y が小さくなる傾向がある

↑

相関係数

2つの変数の間の関係を測る指標で、「身長が高い人は体重が大きい」、「数学の点数が高い人は物理の点数も高い」など、「ああであれば、こうである」ということの程度を示します。相関係数が正のとき確率変数には正の相関が、負のとき確率変数には負の相関があるといいます。

スプレッドシート(EXCEL)では、以下のようにして求められます。とても簡単ですが「あれとこれとには連動関係がある」ということを示すには強い味方です。

=CORREL（範囲1, 範囲2）
注）PEARSON（範囲1, 範囲2）でも同じ結果が得られます。

\[ r = \frac{ \frac{1}{n} \sum_{i=1}^{n}(x_{i} - \bar{x}) (y_{i} - \bar{y}) }{ \sqrt{ \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})^{2} } \cdot \sqrt{ \frac{1}{n} \sum_{i=1}^{n}(y_{i} - \bar{y})^{2}}} = \frac{ s_{xy} }{ s_{x} \cdot s_{y} } \]

言葉で書く方がわかりやすいかも・・

\[ r = \frac{(xとyの共分散) }{ (xの標準偏差) \times (yの標準偏差) } \]

で、数値からわかる２つの変数の関係は、共分散のそれと同じなのですが、相関係数は「変数のスケール変換に対して不変である」という性質があって、以下のように値を理解することができます。

\(r\) は -1.0 から +1.0 までのいずれかの値をとる
\(| r |\) が 1.0 に近いほど相関が強く、0に近いほど相関が弱い
レポート等で相関の有無について語る場合、一般的な目安は以下です。
- | r | =　0.7～1.0　　かなり強い相関がある
- | r | =　0.4～0.7　　やや相関あり
- | r | =　0.2～0.4　　弱い相関あり
- | r | =　0～0.2　　　ほとんど相関なし
\(r\) が正の場合は「正の相関」、負の場合は「負の相関（逆の相関）がある

注意：相関係数が０でも「何らかの関係がある」場合があります。
たとえば、２次元の散布図で分布がV字型になる場合、相関は０に近くなりますが、これは、左のグループと右のグループに分けることで、それぞれのグループにおいて負の相関と、正の相関がある・・ということになります。相関をみる場合は、散布図で状態を目視して状況を見極めることが重要です。

参考：GoogleImage:相関係数

↑

クロス集計

集計には大きく単純集計とクロス集計の2つがあります。単純集計（GT：Grand Tota）は、アンケートの回答者数全体の実数や比率のことで、集計の基本となります。例えば「◯◯が好きですか？」という質問を200人行った結果、はい：110人、いいえ：50人、どちらとも言えない：40人・・といった集計が単純集計です。しかし、それがどんな属性をもった集団にもあてはまるとは限りません（例えば、学部によって傾向に違いがあるもしれない）。そこで、数（比率）の違いを「属性」別に見えるように集計するのがクロス集計です。
　

◯◯が好き	文学部	経済学部	工学部	芸術学部	合計
はい	20	30	35	25	110
いいえ	20	10	5	15	50
どちらとも言えない	10	15	10	5	40
合計	50	55	50	45	200

クロス集計表

このような表をつくると、学部によって、好き嫌いの傾向に違いがあることがわかります。ちなみに、その違いが統計的に優位なものであるか否かを検定する方法として、カイ二乗検定（独立性の検定）があります。