LogoMark.png

Statistics/Descriptive の変更点


#author("2023-10-05T14:07:12+09:00;2023-10-02T12:33:16+09:00","default:inoue.ko","inoue.ko")
*記述統計
Descriptive Statistics

~

記述統計とは、収集したデータを要約(平均、分散などを計算)して対象の特徴・性質を語る統計のことで、2変数の相関を求めたり、クロス集計表を作成したりと、多変量のデータを扱う作業もこれに含まれます。また、データを分かりやすく記述するという意味では、グラフや表を作成したり、グラフや表からから様々な特徴・性質を抽出する作業も記述統計の役割になります。なお、記述統計は、__[[推測統計>Statistics/Inferential]]__より古くからあるもので、''標本と母集団を同一視''して考えます。推測統計の登場後は、古典統計といわれるようにもなりました。
~
~

**統計量
***記述統計における統計量
得られたデータに何らかの計算を行って得られる値を''統計量''と言います。例えば、''平均''や''分散''は代表的な統計量で、具体的な計算について以下の節で順次紹介します。
//一般に「データ分析」というのは、様々な統計量からデータ発生元となる対象を理解すること・・と考えるとよいでしょう。
~

***代表値(measure of central tendency)
データの分布の特徴を表す値
//データの分布の特徴を物語る値のことを代表値と言います。データの中心がどこに位置しているかを示す値で、「中心傾向の測度」ともいいます。

-''平均(mean)''
データの総和をデータ数で割った値。もっとも一般的な代表値。
#mathjax( \bar{x} = \frac{1}{n}( x_1 + x_2 +・・+ x_n) = \frac{1}{n}\sum_{i=1}^{n} x_i)

-''中央値(median)''
データの大きさの順に並べたときにちょうど中央にくる値((例えば、平均年収という数字は、実感とは合いません。理由は「一部の大富豪が平均値を押し上げる」ためで、年収のような数字を代表するには、中央値の方が実感に近いものになります。近年の日本全体の平均年収は445万、中央値は396万で、大きな開きがあります。))。

-''最頻値(mode)''
度数分布において最も高い度数を示す値。
~

***散布度 (dispersion)
データの散らばりぐあいを表す値

-''分散(population variance)''
偏差平方和をデータ数で割った値。対象を母集団とする前提です。
#mathjax( s^2 = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2 )

//-''標本分散(sample variance)''
//偏差平方和をデータ数で割った値。対象を標本とする前提です。
//結果的に行う計算は、母分散と同じ方法なので使う関数は同じです。
// =VAR.P(範囲)
//引数を母集団全体と見なし、母集団の分散 (標本分散) を返します

-''標準偏差(standard deviation)''
標準偏差は、分散のルートをとった値。引数を母集団全体であると見なして、母集団の標準偏差を求めます。
#mathjax( s = \sqrt{ s^2 } )


-''平均偏差''
偏差(平均からの差)の絶対値の平均。データ全体の平均値に対する個々のデータの絶対偏差の平均を求めます。
#mathjax( md = \frac{1}{n}\sum_{i=1}^{n} |x_i -\bar{x}| )

-''四分位点''
四分位点とはデータを昇順に並べたときに 25%, 75% の位置の値です。ボックスプロット(箱髭図)では、箱の上辺・底辺がこれに該当します。
~

***参考:Excelでの関数表記
-平均(mean)
 =AVERAGE(範囲)

-中央値(median)
 =MEDIAN(範囲) 

-最頻値(mode)
 =MODE(範囲)

-分散(population variance)
 =VAR.P(範囲)

-標準偏差(standard deviation)
 =STDEV.P(範囲)

-平均偏差
 =AVEDEV(範囲)

-付記:Excel の関数名について
--XXXX.P(Population)
データを母集団とみなしてそのまま計算した値
--XXXX.S(Sample)
データをサンプルとみなして母集団の値を推定した値
~
~